Live · 오후 6:00 슬롯

2026년 5월 2일 토,
frontline 정리.

AI 3건 · 일반 2건

전체 슬롯발행 5월 2일 PM 06:18

AI · Models · Papers3건

AI · Models

64일 전

LLM 시대의 에이전트 RL 재정의

전통적인 강화학습은 좁게 정의된 환경에서 보상함수를 최적화하는 데 머물렀다. 이 논문은 LLM 기반 에이전트가 등장하면서 RL이 자율적 목표 설정·장기 계획·동적 전략 적응으로 확장되는 흐름을 정리한 서베이다. 메타 추론과 자기 성찰, 다단계 의사결정을 학습 루프 안에 직접 끼워 넣는 것이 핵심 변화로 꼽힌다. 개념적 기반, 방법론 혁신, 미해결 과제까지 묶어둔 카탈로그 성격의 논문.

왜 지금Claude Code·Cursor 같은 에이전트 도구가 일상화된 지금, 이런 시스템을 어떻게 학습시키는지 큰 그림을 잡아둘 시점이다.

써먹기사이드 프로젝트의 작업 자동화 에이전트를 설계할 때 보상·자기 성찰 루프를 어떻게 구성할지 참고용 카탈로그로 쓸 수 있다.

arxiv cs.AI

AI · Models

64일 전

LLM 에이전트의 ‘불안 곡선’ 만들기

임상 환경에 투입된 LLM 에이전트는 보통 임계값을 넘는 순간 급격하게 행동이 바뀌어, 위험이 쌓이는 과정을 사람이 들여다보기 어렵다. 이 논문은 메모리 없는 risk encoder에 1·2차 동역학을 씌워 ‘연속적인 우려 압력 신호’를 만든다. 2차 동역학을 적용하면 임계점 직전까지의 우려가 매끄럽게 누적되는 trajectory가 드러나, 의사가 개입할 시간을 번다. 임상에 한정되지 않고, 임계값 행동을 보이는 에이전트 시스템 일반에 옮길 수 있는 아이디어다.

왜 지금AI 안전 논의가 ‘문턱을 넘었나/안 넘었나’에서 ‘얼마나 오래 위험이 누적됐나’로 이동하는 신호.

써먹기에이전트의 의사결정 로그에 1·2차 적분형 위험 점수를 같이 찍어두면 사후 디버깅과 알람 튜닝이 한결 쉬워진다.

arxiv cs.AI

2026년 5월 2일 토,
frontline 정리.

LLM 시대의 에이전트 RL 재정의

LLM 에이전트의 ‘불안 곡선’ 만들기

14개 억양 콜센터 ASR 데이터셋

Brainfuck로 짠 ChaCha20

Bitwarden을 더는 추천하지 않는 이유

2026년 5월 2일 토,frontline 정리.

LLM 시대의 에이전트 RL 재정의

LLM 에이전트의 ‘불안 곡선’ 만들기

14개 억양 콜센터 ASR 데이터셋

Brainfuck로 짠 ChaCha20

Bitwarden을 더는 추천하지 않는 이유

2026년 5월 2일 토,
frontline 정리.