Prompt Injection
신뢰할 수 없는 외부 문서나 사용자 입력값 내에 악의적인 제어 명령을 교묘히 포함시켜 에이전트의 원래 동작 지침을 탈취하는 취약점 공격입니다.
LLM 에이전트가 외부 데이터·툴·웹을 다루기 시작하면서 입력 공격면이 폭발적으로 늘었기 때문이다.
프롬프트 주입은 'prompt 잘 쓰기'로 막을 수 없다 — 외부 컨텍스트와 system 권한을 격리하는 설계가 본체다.
system prompt에 '무시하지 마세요'를 적고 안심하는 것.
Prompt Injection은 model safety가 아니라 product security 문제다 — 그 차이를 인지하는 것이 첫 단계다.