AI 6건 · 일반 2건
NVIDIA TensorRT-LLM v1.3.0rc14 버전이 출시되었습니다. 이 버전에서는 Mamba 하이브리드 모델, Qwen3.5, Nemotron Super V3 등 다양한 모델의 지원이 개선되었습니다. 또한, VisualGen 서빙과 분산 서빙, 라우팅 기능이 향상되었습니다. 이 업데이트는 LLM의 성능과 효율성을 개선하는 데 중점을 둔 것으로 보입니다.
에이전트 스킬을 평가하는 툴인 agent-skills-eval이 나왔습니다. 이 툴은 에이전트 스킬이 모델의 성능을 실제로 향상시키는지 측정할 수 있습니다. SKILL.md 파일을 작성하고 평가를 추가하면, 에이전트 스킬이 모델의 성능을 향상시키는지 여부를 경험적으로 확인할 수 있습니다. 이 툴은 에이전트 스킬을 개발하는 개발자들에게 유용한 도구가 될 수 있습니다.
MHPR은 인간 중심의 장면에 대한 인식 및 추론을 평가하는 새로운 벤치마크입니다. 이 벤치마크는 다양한 데이터 세트와 자동 캡션 생성 파이프라인을 제공하여 인간의 인식과 추론 능력을 평가합니다. MHPR은 현재의 비전-언어 모델의 능력을 평가하고 향상시키는 데 도움이 될 것입니다. MHPR은 인간의 이해를 평가하는 새로운 방법을 제공합니다. MHPR은 다양한 인간 중심의 장면을 평가합니다.
AI 에이전트 논의가 '환상'에서 '실용'으로 옮겨왔다. 컨텍스트 유지, 비용 최적화, 워크플로우 통합 등 실제 비즈니스 가치를 찾는 질문이 늘었다. Reddit에서 2026년 5월 현재 AI 에이전트 스택의 현실적인 신호 10개를 추렸다.
거대 비전 언어 모델(LVLM)은 웹 데이터 학습 과정에서 저작권이 있는 캐릭터나 로고를 기억하고 재생성할 위험이 있습니다. 머신 언러닝이 해결책으로 제시되지만, 복합적인 멀티모달 LVLM 환경에서 그 효과를 평가하기는 어려웠습니다. CoVUBench는 LVLM의 저작권 콘텐츠 망각 성능을 평가하기 위해 고안된 최초의 벤치마크입니다. 합성 데이터와 체계적인 시각 변형을 활용해 망각 효율성 및 모델 유용성 유지 여부를 엄격하게 측정합니다.
AI 에이전트의 지능 향상에 필수적인 상호작용 월드 모델 연구가 활발하지만, 평가를 위한 통일된 벤치마크가 부족했습니다. iWorld-Bench는 33만 개의 비디오 클립 기반 데이터셋과 6가지 태스크 유형을 제공하여, 실제 환경에서의 인지, 추론, 행동 능력을 통합적으로 평가합니다. 이를 통해 기존 모델의 한계를 파악하고 향후 연구 방향을 제시합니다.
Anthropic이 SpaceX와 대규모 AI 컴퓨팅 클러스터 접근 계약을 체결했다. 이는 Claude 모델 개발 및 확장에 필요한 막대한 연산 자원을 확보하는 결정적 계기가 될 것이다. 최고 수준의 AI 모델과 최첨단 컴퓨팅 인프라의 결합은 AI 기술 발전의 새로운 지평을 열 것으로 기대된다.
LispE는 브라우저에서 실행되는 Lisp 언어입니다. 사용자는 브라우저에서 직접 Lisp 코드를 작성하고 실행할 수 있습니다. 예를 들어, FizzBuzz 함수를 정의하여 1부터 100까지의 숫자 중에서 15의 배수인 숫자에 대해 'fizzbuzz'를 출력하도록 할 수 있습니다. 이 기능은 개발자들이 브라우저에서 Lisp 언어를 쉽게 사용할 수 있도록 해줍니다.