AI 3건 · 일반 2건
Orchard는 오픈소스 에이전트 모델링 프레임워크로, 복잡한 작업을 해결하기 위해 계획, 추론, 도구 사용, 그리고 환경과 상호작용하는 능력을 가진 자율 에이전트를 만들기 위해 설계됐다. Orchard는 가벼운 환경 서비스와 함께 세 가지 에이전트 모델링 레시피를 제공한다. Orchard-SWE는 코딩 에이전트를 대상으로 하며, Qwen3-30B-A3B-Thinking을 기반으로 64.3%의 성능을 달성했다. Orchard-GUI는 비전-언어 컴퓨터 사용 에이전트를 대상으로 하며, 74.1%의 성공률을 달성했다. Orchard-Claw는 개인 보조 에이전트를 대상으로 하며, 59.6%의 패스율을 달성했다. 이러한 결과는 가벼운 오픈 환경 계층이 도메인 간에 재사용 가능한 에이전트 데이터, 훈련 레시피, 및 평가를 가능하게 한다는 것을 보여준다. Orchard는 다양한 작업에 적용될 수 있으며, 특히 에이전트 모델링과 관련된 연구 및 개발에 큰 기여를 할 수 있다. 또한, Orchard의 오픈소스 특성으로 인해 개발자들이 쉽게 접근하고 수정할 수 있다. 따라서, Orchard는 에이전트 모델링 분야에서 중요한 역할을 할 수 있다.
GroupMemBench는 다중 사용자 대화에서 LLM 에이전트의 메모리 성능을 평가하는 벤치마크다. 기존의 메모리 시스템과 벤치마크는 1:1 대화에 초점을 두고 있지만, 실제로는 다중 사용자와 채널이 포함된 대화가 일반적이다. GroupMemBench는 이러한 다중 사용자 대화에서 LLM 에이전트의 메모리 성능을 평가할 수 있는 새로운 벤치마크다. 이 벤치마크는 다중 사용자 대화의 동적을 고려하여 LLM 에이전트의 메모리 성능을 평가한다. GroupMemBench는 다중 사용자 대화에서 LLM 에이전트의 메모리 성능을 개선하는 데 도움이 될 수 있다. LLM 에이전트의 메모리 성능을 평가하고 개선하는 것은 다중 사용자 대화에서 더 나은 성능을 제공하는 데 중요하다.
Mixed-effects 모델은 계층적 그룹 구조와 높은 카디널리티 범주 예측 변수가 있는 데이터를 모델링하는 데 널리 사용된다. 그러나 높은 차원의 교차 랜덤 효과의 경우, 현재의 표준 계산은 콜레스키 분해에 의존하여 매우 느려질 수 있다. 이 연구에서는 이러한 계산 병목 현상을 해결하는 크리로브 하위 공간 기반 방법을 제시하며, 이들을 이론적 및 경험적으로 분석한다. 특히, 조건부 확률적 Lanczos 사분면 및 공액 그라데이션 방법의 수렴 및 정확성을 미xed-effects 모델에 대해 파생시키며, 예측 분산을 계산하는 확장 가능한 방법을 개발한다. 시뮬레이션 및 실제 데이터를 사용한 실험에서 제안된 방법은 최대 약 10,000 배의 속도 향상을 제공하며 콜레스키 기반 계산보다 수치적으로 더 안정적이다. 이러한 연구 결과는 Mixed-effects 모델의 계산 효율성을 크게 향상시킬 수 있다. Mixed-effects 모델은 다양한 분야에서 널리 사용되므로 이러한 연구 결과는 많은 연구자와 개발자에게 유용할 것이다. 또한 이 연구 결과는 데이터 분석 및 머신러닝 분야의 발전에 기여할 것이다. 데이터 분석 및 머신러닝은 현대 사회에서 매우 중요한 역할을 하므로 이러한 연구 결과는 많은 관심을 받을 것이다.
Claude Code가 대형 코드베이스에서 어떻게 작동하는지에 대한 설명이다. Claude Code는 소프트웨어 엔지니어가 코드베이스를 탐색하는 방식과 유사하게 작동한다. Claude Code는 파일 시스템을 탐색하고, 파일을 읽고, grep을 사용하여 필요한 것을 찾고, 코드베이스 전체에서 참조를 따른다. Claude Code는 개발자의 맥에서 로컬로 작동한다. Claude Code는 대형 코드베이스에서 성공적으로 사용되기 위한 패턴을 제공한다. Claude Code는 다양한 언어와 환경에서 작동할 수 있다.
AI 에이전트는 단순 챗봇이 아닌 실행 주체다. 문서 분석, 코드 수정, 툴 호출, 결과 평가를 반복하며 작업을 완수한다. 이제 '프롬프트 잘 쓰는 사람'이 아니라, 작업 단위와 검증 루프를 잘 설계하는 사람이 생존한다. 승부는 모델 이해도가 아닌 업무 구조 설계에 달렸다.