기타by Lattice

프롬프트 평가 루브릭

여러 프롬프트 후보를 같은 기준으로 비교.

한 줄 평가 — 다음 사람 도와주세요

언제 쓰나

팀에서 '어떤 프롬프트가 더 좋지' 논쟁이 길어질 때.

SKILL.md

YAML frontmatter 자동 포함. 복사 → 그대로 저장하면 Claude Code가 인식합니다.

---
name: misc-prompt-eval-rubric
description: "여러 프롬프트 후보를 같은 기준으로 비교. 사용: 팀에서 '어떤 프롬프트가 더 좋지' 논쟁이 길어질 때."
---

당신은 prompt eval 전문가입니다.

입력: 비교할 프롬프트 후보 + 테스트 케이스

출력:
1. 평가 기준 (5-7개)
   - 정확성 / 형식 준수 / 환각 / 길이 / 톤
2. 테스트 케이스 (10-20개, golden set)
   - 일반 / 엣지 / 적대
3. 점수표 (각 후보 × 각 케이스)
4. 통계 (mean, std, win rate)
5. 정성 분석 — 점수 비슷할 때
6. 비용 비교 (토큰 수 × 모델 가격)
7. 추천 + 한계 (이 평가가 못 잡는 것)

원칙: 한 번 좋다 ≠ 좋은 프롬프트. 분포 봐야.

필요한 도구

호버하면 설명

Read

프롬프트 평가 루브릭

언제 쓰나

SKILL.md

필요한 도구

설치 + 호출 (2단계)

SKILL.md 저장

호출