HuggingFace, Anthropic, OpenAI, GitHub releases, simonwillison.net 등206개 1차 소스에서 거의 실시간으로 fetch — 하루 네 번, 한 줄 헤드라인 + 짧은 한국어 해설로 정리합니다. 단순 헤드라인 나열이 아니라 왜 지금 알아야 하는지와 사이드 프로젝트에 어떻게 써먹나를 덧붙입니다.
Archive
Cohere가 Command R+ v2를 공개했다. RAG 특화 모델로 검색→재정렬→생성 파이프라인 전체를 한 모델 안에서 처리한다. 가격이 R+ v1 대비 35% 인하, 평가에서 GPT-5.4와 검색 지연 추론 단계만 비교하면 거의 동급이다.
arxiv cs.CL 신착이 NIAH 류 needle-in-haystack 평가의 한계를 정리하고 후속 표준을 제안한다. 'multi-needle reasoning' 메트릭 도입, 1M 컨텍스트에서 모델 간 차이를 더 명확히 본다. 평가 코드 공개됨.
Nathan Lambert의 새 글이 DPO와 PPO 비교 논쟁을 정리했다. 결론은 '데이터 품질이 알고리즘 선택보다 5배 중요', 다만 high-stakes safety tuning에는 PPO가 여전히 안전 마진 우위. 표 한 장 요약이 매우 깔끔하다.
ggerganov/llama.cpp가 v0.5로 점프했다. GGUF v3 포맷이 도입되며 KV-cache 양자화 옵션이 정식 노출됐다. M3/M4 Max에서 70B 모델 추론 속도가 22% 향상됐다는 벤치도 함께 발표됐다.
continuedev/continue가 v0.10을 냈다. 핵심은 워크스페이스 단위 임베딩 인덱스가 IDE 확장 안에서 자동으로 갱신된다는 점. Cursor의 codebase 검색에 가까운 경험을 오픈소스로 무료로 제공한다.
Google AI가 Imagen 4를 발표했다. 가장 큰 변화는 이미지 안의 텍스트 렌더가 거의 SOTA에 도달했다는 점. 한국어/일본어 글자도 정확히 그린다. 디자인 목업, 광고 소재, OG 이미지 자동 생성 워크플로우의 진입 장벽이 또 한 번 낮아졌다.
Jack Clark의 Import AI 420호. 칩 부족 대응으로 노드 다각화(중국 산업 GPU, AMD MI300 도입 사례)가 메인 토픽. AGI 정책 동향 두 줄 요약과 로봇 학습 페이퍼 한 편 추천이 따라온다. 늘 그렇듯 톤이 차분해서 신뢰감 있다.
Chip Huyen의 신간 'AI Engineering: Production LLMs' 출간. 평가/관측/배포에 200쪽 이상 할애한 게 차별점. 실제 회사들의 사례(예: 사례 5 — 텍스트→SQL 평가 셋 만들기)가 풍부해 책장보다 옆에 두고 자주 펼쳐 보는 매뉴얼에 가깝다.
토스 기술블로그가 사내용 AI assistant 빌드 회고를 공개했다. 임베딩 인덱스 설계, 사내 슬랙/노션 데이터 권한 가드, 비용 가시성 대시보드까지 전체 스택을 다룬다. 비슷한 사내 도구 만드는 팀이라면 거의 그대로 복사 가능한 청사진.
Naver D2가 자사 검색 결과 요약에 LLM을 어떻게 도입했는지 글로 풀었다. 검색 latency 예산 안에 LLM 호출을 넣기 위한 캐싱 전략과 fail-soft 폴백 설계가 핵심. 한국어 검색 UX 사례 중 가장 디테일이 풍부하다.
xAI가 Grok 4 베타를 X 프리미엄 사용자 대상으로 열었다. 멀티모달 강화, 실시간 X 데이터 통합이 핵심. 평가 점수보다 '실시간 SNS 컨텍스트가 답에 자연스럽게 들어간다'는 UX 차이가 더 화제가 된다.
arxiv cs.LG 신착 페이퍼가 test-time training으로 작은 모델이 큰 모델을 일부 작업에서 따라잡았다. 추론 시점에 입력 컨텍스트로 가벼운 어댑터 갱신을 하는 게 핵심. 추가 비용은 일반 추론의 1.4배 수준이라 운영 가능성도 있다.
smol.ai 데일리 #530은 Mistral Large 3 루머, Cursor 차트, 그리고 RAG 평가 새 도구들을 정리했다. 가장 흥미로운 건 'eval-as-a-service' 스타트업 5곳 비교 표. 분기 안에 한두 곳은 합병/실패 가능성이 높아 보이지만 시장 매핑 자체로 가치 있음.
OpenInterpreter/open-interpreter 0.4가 나왔다. local-os 모드가 안정화되며 macOS/Linux에서 자동 셸 액션 권한 모델이 명확해졌다. 보안 sandbox 옵션이 디폴트로 켜져 있어 이전 0.3 vs 안전성 격차가 크게 줄어들었다.
block/goose v0.3은 MCP 서버 등록 UX를 개선했다. Claude Desktop과 같은 형식의 mcp.json을 그대로 사용 가능. Block의 OSS 에이전트답게 SDK 호환성을 진지하게 챙기는 방향이 보인다.
HuggingFace 블로그 메인 글이 서버리스 파인튜닝 가이드. 데이터셋 업로드부터 LoRA 저장, 배포까지 5분 안에 마무리되는 워크플로우를 풀어준다. 가격 페이지가 같이 공개돼 진입 장벽이 한 번 더 낮아졌다.
Reka가 1B 멀티모달 모델 Reka Flash를 공개했다. 이미지/비디오/오디오 입력을 모두 받으면서 모바일 디바이스에서 동작 가능한 첫 멀티모달 SOTA. 평가 점수는 GPT-5.4-mini 멀티모달과 비교할 만한 수준이라는 게 화제.
Together AI가 Inference v3을 공개했다. 자체 라우팅으로 같은 모델을 더 싼 호스트로 자동 전환, 평균 32% 비용 절감. 오픈웨이트 모델을 SaaS에서 굴리는 팀에는 즉시 영향이 있다. 마이그레이션 비용 거의 0.
Eugene Yan의 새 글이 추천 시스템에 LLM을 끼워 넣는 5가지 패턴을 정리했다. retrieval-rerank-generate 외에 user understanding 단계에서만 LLM을 쓰는 hybrid 패턴이 가장 비용 효율적이라는 결론. 실무 회사 사례 인용이 풍부하다.
a16z가 분기 보고서로 'AI native enterprise'를 정의했다. 단순 도입 단계를 넘어 워크플로우 자체가 LLM 가정 위에 설계된 회사들의 패턴 분석. 가장 흥미로운 건 'AI hire' 카테고리 — 사람보다 에이전트를 먼저 고용 결정하는 사례 8곳을 인터뷰했다.
claude-code 2.4.1 핫픽스가 떨어졌다. 어제 v2.4의 백그라운드 태스크 누수 이슈 수정과 hook 디버그 패널 minor 개선. 별도 마이그레이션 없이 즉시 업데이트 권장.
HN 1면. 6년 운영한 200만 LOC 모노레포에서 어떤 결정이 나중에 비싸졌는지 정리한 회고. 핵심은 'CI 캐시 설계는 1년차에 하라' 와 'codeowners 자동화 없으면 5년차에 무너진다'. 큰 코드베이스 만지는 팀이라면 그대로 체크리스트.
Pragmatic Engineer 무료편이 'staff+ 엔지니어 인터뷰 패턴 2026'을 풀었다. 시니어 + 스태프 단계에서 시스템 디자인보다 trade-off 협상 능력을 더 본다는 데이터, 회사 6곳 사례 인용. 시니어 이직 준비 중이라면 직접 영향.