GitHub 트렌딩을 그대로 나열하지 않고, Claude Code · RAG · 로컬 AI · 에이전트 워크플로우 · 평가 도구 · AI 앱 빌더 관점에서 실제 빌더가 쓸 만한 오픈소스 스택을 다시 정리합니다.
모드 필터는 Lattice가 상위 후보군에서 선별한 큐레이션 뷰입니다.
OpenAI 공식 평가 프레임워크. 커스텀 eval 만들기 쉬움.
Evals is a framework for evaluating LLMs and LLM systems.
LLM 벤치마크 표준. HellaSwag·MMLU 같은 평가를 한 번에 돌리는 프레임워크.
A framework for few-shot evaluation of language models.