AI 3건 · 일반 2건
PolitNuggets는 에이전틱 정보 종합을 위한 새로운 벤치마크이다. 이 벤치마크는 400명의 세계 정상에 대한 정치적 전기를 작성하여 10,000개 이상의 정치적 사실을 다룹니다. 또한 FactNet이라는 증거 조건 프로토콜을 제안하여 발견, 세부 정확성, 효율성을 평가한다. 이 연구는 현재 시스템이 세부 사항과 효율성에서 어려움을 겪고 있음을 보여준다. 이러한 결과는 에이전틱 시스템의 성능을 향상시키기 위한 새로운 방향을 제시한다. 에이전틱 시스템은 정보를 종합하고 새로운 사실을 발견하는 능력을 평가하는 데 사용된다. 이 연구는 이러한 시스템의 성능을 평가하고 향상시키는 데 도움이 된다.
2015년 등장한 Volkswagen은 CI 서버에서 테스트가 실행되는 시점을 감지해 자동으로 테스트를 통과시키는 도구다. CI 환경에서 테스트 점수를 높여 소프트웨어 채택률을 높이려는 목적을 가진다. assert, tap, chai 등 다양한 테스트 프레임워크와 Travis CI, CircleCI 등 다수 CI 서버를 지원한다. 테스트 통과를 위해 별도 수정 없이 기존 코드에 Volkswagen을 적용하기만 하면 된다.
최근 논문은 지구 규모의 단일 모델 한계를 지적하며, 특정 지역에 특화된 소형 JEPA 모델 군단과 라우팅 에이전트 조합을 제안한다. Sentinel-2, Sentinel-1 등 다양한 센서 데이터로 사전 훈련된 5개의 22M 파라미터 모델은 고도, 온도, 강수량 예측에서 0.97, 0.97, 0.81의 교차 검증 R^2 값을 달성했다. 특히, 지형-토양 및 식생 모델은 기존 모델 대비 토양 습도, 건조함, 강수량 예측력을 0.031까지 향상시킨다. 라우터 LLM이 적절한 센서 모델을 완벽하게 선택하며, 이는 기존 대규모 모델 대비 향상된 성능을 보인다.
Polaris는 소형 언어 모델(SLM)이 자체 정책을 재귀적으로 개선하는 G"odel Agent 프레임워크다. 경험 추상화를 통해 실패를 학습하고, 분석-전략 형성-추상화-수정 주기로 정책을 업데이트한다. 파라미터 튜닝이 아닌 정책 레벨 변경으로, 작고 감사 가능한 패치들이 누적되어 지속적으로 성능을 향상시킨다. 메타 추론을 통해 에러를 설명하고 명확한 수정안을 제시하며, 경험 추상화로 실패를 재사용 가능한 전략으로 만들어 다양한 작업에 효과적으로 적용된다.
구글이 안드로이드를 AI 에이전트 기기로 바꾸겠다고 선언했다. Gemini 인텔리전스의 멀티스텝 앱 자동화와 함께, AI에게 목표를 구조적으로 전달하는 /goal 명령어가 추가됐다. 이 명령어는 Anthropic 엔지니어가 마크다운 대신 HTML을 쓰는 이유와도 관련이 있다. 이번 주 프로덕트 메이커가 주목해야 할 세 가지를 정리했다. Claude Code의 새로운 기능은 개발자들이 더 효율적으로 작업할 수 있도록 도와줄 것이다. Claude Code는 개발자들이 자동화된 코드 생성과 관리를 할 수 있도록 도와주는 도구이다. 새로운 /goal 명령어는 개발자들이 더 구조적인 코드를 작성할 수 있도록 도와줄 것이다.