AI 3건 · 일반 0건
ATBench는 에이전트 안전성 평가와 진단을 위한 다양한 실제 에이전트 트레이저리 벤치마크다. 기존 벤치마크의 한계를 극복하여 실제 에이전트 위험을 평가할 수 있다. ATBench는 1,000개의 트레이저리와 1,954개의 도구를 포함한다. 이 벤치마크는 강력한 평가자에게도 도전적이며, 장기 지평 실패 패턴의 진단을 가능하게 한다. ATBench는 에이전트 안전성 평가와 진단을 위한 새로운 표준을 제공한다. 이 벤치마크는 실제 에이전트 위험을 평가하고 진단하는 데 중요한 역할을 한다.
신경 과학 데이터는 형식과 저장 방식이 다양해 재사용이 어렵다. 연구팀은 Agentic AI가 논문, 코드, 데이터를 종합해 공통 포맷으로 변환하는 능력을 평가했다. 일반적인 코딩 에이전트는 개별 작업은 잘 수행하지만 엔드투엔드 파이프라인에서 오류가 발생했다. 인간 감독이 필요한 이유와 데이터 공유를 위한 새로운 모범 사례를 제안한다.
챗봇은 크게 두 종류다. LLM 기반의 GPT 챗봇은 고객 의도를 파악해 맥락에 맞는 답변을 생성한다. 반면 전통 챗봇은 미리 정의된 키워드에 기반한 정해진 답변만 내놓는다. GPT 챗봇은 단순 반복 작업 효율화와 고객 경험 향상에 유리하다. 귀사의 서비스에 어떤 챗봇이 필요한지 지금 판단해야 할 때다.