AI 3건 · 일반 2건
Grok과 Gemini는 실제 개발 작업에서 '최고의 모델'로 평가받은 적이 없다. 이들은 쓸모없는 벤치마크에서 근소한 우위를 점했을 뿐이다. 심각한 개발 작업에 이 모델들을 주력으로 사용했다면, 그 판단력을 신뢰하기 어렵다. LLM 선택 시 실질적인 성능과 유용성을 고려해야 함을 시사한다.
RelayOps는 텔레콤 및 구독 결제 관련 고객 지원 큐를 위한 AI 에이전트다. 54% 자동 해결율과 0건의 위험한 자동 조치를 달성했다. Qwen2.5 모델 기반으로 RAG와 독립적인 가드레일을 결합하여 신뢰도를 높인다. 전체 의사 결정 과정을 추적하고 감사할 수 있는 콘솔을 제공한다. 현재 큐를 운영 중인 기업을 대상으로 디자인 파트너를 모집 중이다.
Wes McKinney의 AgentsView는 로컬 코딩 에이전트 토큰 사용량을 시각화하는 도구다. Claude Fable 5 출시 후 AgentsView에 아직 미포함돼 가격 데이터베이스에 수동으로 추가해야 했다. Simon Willison은 Fable 5를 역분석해 AgentsView에서 커스텀 가격을 설정하는 방법을 알아냈다. 이를 통해 다양한 LLM 모델의 비용을 정확하게 추적하고 관리할 수 있다.
OCaml 런타임 시스템을 C에서 Rust로 한 줄씩 재작성하는 실험적인 이식이 공개되었다. 이 작업은 OCaml의 내부 구조를 이해하고 Rust의 메모리 안전성과 성능 특성을 탐구하는 데 깊은 통찰을 제공한다. C 코드를 Rust 코드로 직접 변환하며 발생하는 설계 결정과 잠재적 이점을 자세히 분석한다.
개인 지식 관리를 위해 Obsidian, 깃허브, Claude Code를 결합해 LLM 위키를 구축했다. 이 시스템은 흩어진 프로젝트 정보를 통합하고, '나 자신'에 대한 맥락을 효율적으로 정리하는 것을 목표로 한다. Andrej Karpathy가 제시한 LLM 위키 아이디어를 기반으로, 개인적인 맥락 정리를 위한 세컨드 브레인 구축 경험을 공유한다. 이는 LLM을 활용한 지식 관리의 새로운 가능성을 제시한다.