AI 3건 · 일반 2건
xAI가 Grok 4 베타를 X 프리미엄 사용자 대상으로 열었다. 멀티모달 강화, 실시간 X 데이터 통합이 핵심. 평가 점수보다 '실시간 SNS 컨텍스트가 답에 자연스럽게 들어간다'는 UX 차이가 더 화제가 된다.
arxiv cs.LG 신착 페이퍼가 test-time training으로 작은 모델이 큰 모델을 일부 작업에서 따라잡았다. 추론 시점에 입력 컨텍스트로 가벼운 어댑터 갱신을 하는 게 핵심. 추가 비용은 일반 추론의 1.4배 수준이라 운영 가능성도 있다.
smol.ai 데일리 #530은 Mistral Large 3 루머, Cursor 차트, 그리고 RAG 평가 새 도구들을 정리했다. 가장 흥미로운 건 'eval-as-a-service' 스타트업 5곳 비교 표. 분기 안에 한두 곳은 합병/실패 가능성이 높아 보이지만 시장 매핑 자체로 가치 있음.
OpenInterpreter/open-interpreter 0.4가 나왔다. local-os 모드가 안정화되며 macOS/Linux에서 자동 셸 액션 권한 모델이 명확해졌다. 보안 sandbox 옵션이 디폴트로 켜져 있어 이전 0.3 vs 안전성 격차가 크게 줄어들었다.
block/goose v0.3은 MCP 서버 등록 UX를 개선했다. Claude Desktop과 같은 형식의 mcp.json을 그대로 사용 가능. Block의 OSS 에이전트답게 SDK 호환성을 진지하게 챙기는 방향이 보인다.