AI 2건 · 일반 2건
기존 파운데이션 모델 평가는 집계 점수에 의존해 세부 평가가 어려웠다. 본 연구는 텍스트북 등 참조 자료 기반 평가 문제 생성을 자동화하는 프레임워크를 제안한다. 멀티 에이전트 구조와 솔루션 그래프 전략을 통해 광범위한 커버리지, 풍부한 메타데이터, 높은 신뢰도의 벤치마크를 생성한다. 기계 학습, 기업 금융, 개인 금융 분야 벤치마크 생성 결과, 기존 벤치마크 대비 오류율이 현저히 낮음을 입증했으며, 상용·오픈소스 모델 평가에서 일관된 역량 커버리지를 보여준다.
SpecX는 대규모 멀티모달 분광 벤치마크로, 1.7M개의 분자와 다양한 분광 모달리티를 포함한다. 이 벤치마크는 전문화된 모델과 멀티모달 언어 모델 모두에서 평가할 수 있다. SpecX는 분자 해석, 스펙트럼 시뮬레이션, 스펙트럼 이해와 같은 다양한 태스크를 지원한다. 실험 결과, 전문화된 모델은 신호 수준 모델링에서 우수한 성능을 보였지만, 멀티모달 언어 모델은 높은 수준의 추론에서 강점을 보였으나, 정교한 스펙트럼 기초가 부족했다. SpecX는 분광 지능을 위한 통합 벤치마크를 제공한다. SpecX는 스펙트럼-네이티브 기초 모델의 필요성을 강조한다.
루비는 15년 전부터 사용해 왔으며, 여전히 즐겁게 코딩할 수 있는 언어다. 루비는 빠르거나 최신 트렌드가 아니지만, 즐거운 코딩을 위해 선택하는 언어다. 루비에는 메서드 가시성과 정제, 위임, 블록 파라미터 등 유용한 기능이 있다. 이러한 기능들은 코드를 간결하게 만들고, 개발자의 생산성을 높인다. 루비는 또한 Object#then과 Kernel#tap을 통해 연쇄적인 작업을 쉽게 수행할 수 있다. Fiber 스케줄러를 통해 동시성 코드를 순차적으로 작성할 수 있다. 이러한 기능들이 루비를 여전히 매력적인 언어로 만든다. 루비는 개발자에게 편안함과 즐거움을 제공한다. 루비의 이러한 특징들이 개발자에게 큰 도움이 된다.
GitHub이 공식 GitHub MCP Server를 릴리스했다. MCP(Machine Code Protocol) 에이전트가 이슈, PR, 리포지토리 등을 직접 조작할 수 있다. 기존 API 호출 방식과 달리 의도 기반 작업 흐름을 지원하며, 에이전트가 컨텍스트를 유지한 채 단계적 작업을 수행할 수 있다. 에이전트 기반 개발 워크플로 자동화의 핵심 인프라가 마련됐다.