AI 2건 · 일반 0건
ATBench는 에이전트 안전성 평가와 진단을 위한 다양한 실제 에이전트 트레이저리 벤치마크다. 기존 벤치마크의 한계를 극복하여 실제 에이전트 위험을 평가할 수 있다. ATBench는 1,000개의 트레이저리와 1,954개의 도구를 포함한다. 이 벤치마크는 강력한 평가자에게도 도전적이며, 장기 지평 실패 패턴의 진단을 가능하게 한다. ATBench는 에이전트 안전성 평가와 진단을 위한 새로운 표준을 제공한다. 이 벤치마크는 실제 에이전트 위험을 평가하고 진단하는 데 중요한 역할을 한다.
신경 과학 데이터는 형식과 저장 방식이 다양해 재사용이 어렵다. 연구팀은 Agentic AI가 논문, 코드, 데이터를 종합해 공통 포맷으로 변환하는 능력을 평가했다. 일반적인 코딩 에이전트는 개별 작업은 잘 수행하지만 엔드투엔드 파이프라인에서 오류가 발생했다. 인간 감독이 필요한 이유와 데이터 공유를 위한 새로운 모범 사례를 제안한다.