AI 3건 · 일반 2건
오픈소스 유지보수자가 Codex를 활용해 워크플로에 통합할 수 있는 커스텀 스킬 활용법을 공유한다. GitHub Actions에서 Codex를 어떻게 적용하는지에 대한 실질적인 사례를 제공한다. 이는 개발 생산성을 높이고 반복적인 작업을 자동화하는 데 기여한다.
Agentic XAI 시스템은 LLM으로 설명 접근성을 높이지만, 그럴듯하지만 사실과 다른 설명을 생성할 위험이 있다. Faithful Agentic XAI(FAX)는 명시적 검증으로 설명의 진실성을 향상시킨다. FAX는 초안 설명을 주장으로 분해하고, 이를 신뢰할 수 있는 도구와 교차 확인하여 지원되지 않거나 모순되는 주장을 필터링한다. 복잡한 정책, 다양한 목표, 도전적인 시나리오를 갖춘 CRAFTER-XAI-Bench 벤치마크에서 FAX는 시뮬레이션 진실성을 0.20에서 0.46으로 크게 향상시켰다. 이는 명시적 검증이 Agentic XAI의 진실성에 필수적임을 보여준다.
온라인 강화 학습은 확산 모델을 비미분 가능 목표에 맞추는 데 점점 더 중요해진다. 기존 방법은 잡음 잠재 상태에서 직접 예측값을 예측하는 상태 정렬 잠재 액터-크리틱 프레임워크를 제안한다. 이는 궤적 수준 PPO 훈련을 가능하게 하며, 단순한 조건부 및 값 사전 훈련 전략으로 안정적인 액터-크리틱 최적화를 지원한다. 또한, 학습된 비평가를 추론 시 조향에 재사용할 수 있게 한다. 이는 UNet 및 DiT 기반 백본 모두에서 단일 보상 및 다중 보상 벤치마크에서 이전 그룹 상대 RL 및 액터-크리틱 기준선을 일관되게 능가한다.
LLVM 컴파일러의 버그를 찾는 개인 프로젝트를 통해 수백개의 버그를 발견했다. 이 프로젝트는 LLVM의 instcombine 패스에서 시작하여 ptxas 컴파일러로 확장되었다. 이 발견은 컴파일러의 안정성과 보안에 큰 영향을 미칠 수 있다. 컴파일러의 버그는 프로그램의 동작을 변경하거나 보안 취약점을 만들어 낼 수 있기 때문이다. 이 프로젝트는 컴파일러의 안정성과 보안을 향상시키는 데 중요한 역할을 할 수 있다.
한 디자이너가 Claude를 활용해 7일 만에 '문채' 앱을 개발하고 출시했다. 비개발 직군도 LLM 지원으로 아이디어를 빠르게 구현하고 시장에 선보일 수 있음을 입증한다. 단기간 내 900개 이상의 커밋을 달성하며 Claude가 단순 코드 생성 그 이상으로 개발 전반에 기여했음을 보인다. 이 사례는 LLM 기반의 초고속 애자일 개발 프로세스 가능성을 제시한다.