오늘의 뉴스매일 4슬롯 종합 큐레이션 전체 슬롯원문 슬롯 · 10 / 14 / 18 / 22 KST Blog Repos오늘의 픽 · 지식 기반 인터랙티브 그래프1650+

Build Stack

Prompts오늘의 픽 · 코드베이스 분석350+Skills오늘의 픽 · 코드 간결화 도구150+MCP오늘의 픽 · mcp-for-beginners300+Workflows오늘의 픽 · Claude Code 환경 처음 세팅100+

Community PlaygroundNEW SubscribeNEW

Privacy Policy Terms & Conditions

LatticeAI Intelligence PlatformAI 인텔리전스 플랫폼

Blog블로그 Atlas아틀라스

Community커뮤니티BETA Playground플레이그라운드NEW

Today's News오늘의 뉴스 Current News Slot전체 슬롯 Blog블로그 Atlas아틀라스 Community커뮤니티BETA Playground플레이그라운드NEW

AI-NativeAI 네이티브

Repos레포 Prompts프롬프트 Skills스킬 MCPMCP Workflows워크플로우

© 2026 Lattice

Subscribe AI Atlas 프롬프트 Telegram News Contact GitHub

마지막 업데이트: 54분 전

MMLU · Lattice Atlas · Lattice

오늘의 뉴스매일 4슬롯 종합 큐레이션 전체 슬롯원문 슬롯 · 10 / 14 / 18 / 22 KST Blog Repos오늘의 픽 · 지식 기반 인터랙티브 그래프1650+

Build Stack

Prompts오늘의 픽 · 코드베이스 분석350+Skills오늘의 픽 · 코드 간결화 도구150+MCP오늘의 픽 · mcp-for-beginners300+

LatticeAI Intelligence PlatformAI 인텔리전스 플랫폼

Blog블로그 Atlas아틀라스

Community커뮤니티BETA Playground플레이그라운드NEW

Today's News오늘의 뉴스 Current News Slot전체 슬롯 Blog블로그 Atlas아틀라스 Community커뮤니티BETA Playground플레이그라운드NEW

AI-NativeAI 네이티브

Repos레포 Prompts프롬프트 Skills스킬 MCPMCP Workflows워크플로우

Atlas/Evaluation

MMLU

EvaluationPrimary#62

인문학, 사회과학, 수학 등 다양한 도메인의 지식을 망라하여 모델의 일반적인 이해도를 종합 평가하는 대형 벤치마크 데이터셋입니다.

왜 지금 중요한가

기초 성능 평가에서 가장 빈번하게 인용되는 표준 지표입니다. 점차 모델들이 상향 평준화됨에 따라 변별력 한계 지적이 공존합니다.

관련 개념

벤치마크Benchmark
GSM8K
HumanEval
평가 데이터셋Eval Set

© 2026 Lattice

Subscribe AI Atlas 프롬프트 Telegram News Contact GitHub

MT-Bench

Open in Atlas Universe

Workflows오늘의 픽 · Claude Code 환경 처음 세팅100+

Terms & Conditions

마지막 업데이트: 54분 전