AI 5건 · 일반 2건
최근에 발표된 SkillRet은 LLM 에이전트의 스킬 검색을 위한 대규모 벤치마크입니다. SkillRet에는 17,810개의 공개 에이전트 스킬이 포함되어 있으며, 구조화된 의미 태그와 2단계 분류 체계를 통해 6개의 주요 카테고리와 18개의 하위 카테고리로 구성되어 있습니다. 또한 63,259개의 훈련 샘플과 4,997개의 평가 쿼리가 제공되어 벤치마킹과 검색을 위한 훈련을 모두 지원합니다. 이 벤치마크는 LLM 에이전트의 스킬 검색 성능을 평가하고 개선하는 데 유용할 것입니다.
Gemma 4와 Opus 4.6을 비교한 벤치마크 결과, Gemma 4가 더 빠르고 비용이 낮은 것으로 나타났지만, 실제 프로젝트에서 Gemma 4는 실패하고 Opus 4.6이 성공했다. 이는 에이전트의 능력이 실제 프로젝트에서 어떻게 활용되는지에 따라 달라질 수 있다. Gemma 4는 빠른 속도와 낮은 비용을 제공하지만, 실제 프로젝트에서 필요한 능력이 부족할 수 있다. Opus 4.6은 더 높은 비용을 요구하지만, 실제 프로젝트에서 필요한 능력을 제공할 수 있다.
기존 스팀 게임 추천 시스템을 고도화하여, 단순 장르 매칭을 넘어 사용자 취향의 미묘한 특징까지 분석해줍니다. '액션' 같은 광범위한 태그 대신, '도시 분위기, 재즈 퓨전'처럼 게임별 고유한 요소를 파악합니다. 이는 사용자가 어떤 기준으로 추천받았는지 명확히 이해하게 하여, 더욱 만족도 높은 게임 탐색을 돕습니다. 추천 시스템의 '설명 가능성'을 높여 사용자 신뢰와 활용성을 극대화한 좋은 사례입니다.
기업 AI 에이전트는 점점 더 제한된 접근 권한 환경에서 작동합니다. 문제는 에이전트가 호출자의 권한 경계 밖에 중요한 증거가 있음에도 불구하고 완전해 보이는 답변을 생성할 수 있다는 점입니다. Partial Evidence Bench는 이러한 위험한 불완전 답변(unsafe completeness) 실패 모드를 측정하기 위한 결정론적 벤치마크입니다. 총 72개 태스크로 구성된 세 가지 시나리오(실사, 규정 준수 감사, 보안 사고 대응)를 통해 에이전트의 답변 정확성, 완전성 인지, 누락 보고 품질 등을 평가합니다. 이 벤치마크는 에이전트 시스템의 거버넌스 관련 핵심 실패를 인간 평가 없이 측정 가능하게 만듭니다.
2026년 기준 클로드와 챗GPT는 각각의 강점이 뚜렷하다. 코딩과 장문 분석에선 클로드가 우위지만, 데이터 처리·이미지 생성·웹 검색은 챗GPT가 앞선다. 둘은 보완 관계이며, 실제 사용에선 목적에 따라 선택해야 한다. 사이드 프로젝트에서는 클로드로 설계를 짜고, 챗GPT로 시각화와 검증을 하는 병행 전략이 효과적이다.
제로클릭 시대, GEO에 대한 높은 관심 속 검증되지 않은 정보가 넘쳐납니다. 이 세미나는 GEO 적용 시 무엇을 성과로 볼지, 어떤 도구를 어떤 기준으로 선택할지 등 실질적인 의문을 해소합니다. 7년차 SEO 컨설턴트와 콘텐츠 전략가, AI 검색 엔지니어 등 전문가들이 직접 GEO를 적용하며 겪은 경험을 바탕으로 시장의 통념을 팩트체크하고 오해와 진실을 짚어줍니다. 시간과 비용을 낭비하기 전에 GEO의 본질을 파악할 기회입니다.
양자내성(PQ) 키 교환을 WireGuard에 통합한 새로운 혼합 프로토콜이 제안됐다. 기존 WireGuard의 성능과 호환성을 유지하면서, NIST 표준 후보인 Kyber 기반의 양자내성 보안을 추가했다. 실험 결과, 오버헤드는 1% 내외로 거의 무시 가능하며, 실제 배포 가능성을 보여줬다. 이는 네트워크 보안 인프라의 양자 시대 대비에 중요한 한 걸음이다.