AI 2건 · 일반 2건
최근 연구진은 12개의 유명한 LLM 에이전트 벤치마크 논문을 분석하여 각 논문이 어떻게 평가를 수행했는지 기록했다. 이를 통해 벤치마크 결과의 신뢰성을 높이는 데 도움이 될 수 있다. 분석 결과, 에이전트 벤치마크 논문은 평균 0.38의 점수를 얻었으며, 클래식 스태틱 벤치마크 논문은 평균 0.66의 점수를 얻었다. 특히, 에이전트 벤치마크 논문은 평가 환경에 대한 정보를 충분히 공개하지 않는다는 문제점이 발견되었다. 이 연구는 LLM 에이전트의 평가를 투명하게 만들기 위한 중요한이다. 이 연구는 LLM 에이전트의 평가를 신뢰할 수 있게 만들기 위해 필요한 정보를 제공한다. 또한, 이 연구는 LLM 에이전트의 성능을 비교하고 평가하기 위한 표준화된 프레임워크를 제공한다.
와일드로드벤치는 비전-언어 모델과 자율 에이전트를 위한 와일드 항공 도로 손상 그라운드 트루스 벤치마크다. 와일드로드벤치는 직접 시각적 그라운드 트루스를 제공하며, LLM 주도 에이전트가 전문가가 주석을 단 UAV 코퍼스에서 연구 및 엔지니어링을 수행할 수 있게 한다. 동일한 이미지 세트와 동일한 per-class AP_50 메트릭이 두 가지 프로토콜에서 평가된다. VLM 트랙은 고정된 VLM이 하나의 이미지와 짧은 프롬프트에서 도메인 특정 손상을 lokalize할 수 있는지 측정한다. 에이전트 트랙은 자율 에이전트가 작성된 태스크 브리프, 작은 탐색 슬라이스 및 고정된 상호작용 예산을 사용하여 공개 웹을 검색하고 사전 훈련된 구성 요소를 적응시키고 훈련 및 추론 코드를 작성하여 스칼라 피드백 오라클을 통해 숨겨진 홀드아웃에 예측을 제출할 수 있는지 측정한다. 와일드로드벤치는 폐쇄형 모델과 공개형 VLM 및 여러 LLM 주도 에이전트를 벤치마크한다. 두 경로는 신뢰할 수 있는 성능을 달성하지 못한다.
OpenBSD 7.9에서 exim이 제거되며 OpenSMTPD가 기본 메일 서버로 전환된다. OpenSMTPD는 기본 시스템에 포함된 smtpd로, 초기에는 안정성이 낮았으나 2014년 OpenBSD 5.6부터 기본으로 채택되며 성숙했다. 기존 exim 사용자는 업그레이드 전 반드시 대체 방안을 마련해야 한다.
이커머스 플랫폼의 수익성은 상품 데이터 구조에서 갈린다. 많은 이커머스 플랫폼이 매출 성장을 경험하면서 실제로 돈을 벌고 있는 상품과 광고를 식별하고자 한다. 하지만 잘못된 상품 데이터 구조로 인해 실무에서 광고는 잘 되는데 실제 마진은 적자인 상황, 품절 SKU가 계속 광고에 노출되는 비효율, 또는 특정 옵션만 팔리는데 전체 상품이 잘 팔린다고 착각하는 마진 착시가 반복적으로 발생한다. 이러한 문제의 원인은 마케팅 전략이 아니라 ‘상품 데이터 구조’에 있다. 플랫폼이 ‘상품’이라는 단어로 원가, 재고, 전시 정보 등 너무 많은 데이터를 한 번에 관리하기 때문이다. 따라서 이커머스 플랫폼은 상품 데이터 구조를 개선하여 수익성을 높일 수 있다. 이를 통해 효율적인 광고와 판매 전략을 수립할 수 있다.