AI 3건 · 일반 2건
전통적인 강화학습은 좁게 정의된 환경에서 보상함수를 최적화하는 데 머물렀다. 이 논문은 LLM 기반 에이전트가 등장하면서 RL이 자율적 목표 설정·장기 계획·동적 전략 적응으로 확장되는 흐름을 정리한 서베이다. 메타 추론과 자기 성찰, 다단계 의사결정을 학습 루프 안에 직접 끼워 넣는 것이 핵심 변화로 꼽힌다. 개념적 기반, 방법론 혁신, 미해결 과제까지 묶어둔 카탈로그 성격의 논문.
임상 환경에 투입된 LLM 에이전트는 보통 임계값을 넘는 순간 급격하게 행동이 바뀌어, 위험이 쌓이는 과정을 사람이 들여다보기 어렵다. 이 논문은 메모리 없는 risk encoder에 1·2차 동역학을 씌워 ‘연속적인 우려 압력 신호’를 만든다. 2차 동역학을 적용하면 임계점 직전까지의 우려가 매끄럽게 누적되는 trajectory가 드러나, 의사가 개입할 시간을 번다. 임상에 한정되지 않고, 임계값 행동을 보이는 에이전트 시스템 일반에 옮길 수 있는 아이디어다.
공개된 영어 ASR 평가 코퍼스는 대부분 짧게 잘려 있거나 낭독체이거나 방언 라벨이 없어, 다양한 사용자 환경의 강건성을 측정하기 어려웠다. AppTek은 14개 영어 억양과 16개 서비스 시나리오의 즉흥 롤플레이 대화로 구성된 콜센터 코퍼스를 평가 전용으로 새로 제작했다. 데이터가 사전학습 코퍼스에 들어가 있을 가능성이 낮아 오염 없는 평가가 가능하다. 오픈소스 ASR 시스템들을 돌려본 결과, 미국 영어에서 잘 작동하던 모델이 다른 억양으로는 그대로 이어지지 않는다는 점이 다시 확인됐다.
ChaCha20 스트림 사이퍼를 Brainfuck로 직접 구현한 결과물 + 회고. 14만 줄 가까운 Brainfuck 명령으로 quarter-round 20라운드를 돌리며, 가장 느린 부분은 octet 단위로 자리올림을 수동 처리해야 하는 덧셈이라고 설명한다. ARX 사이퍼라 ‘CPU 친화적’이라 불리지만, byte 단위 증감만 가진 Brainfuck에는 그 친화성이 닿지 않는다. ‘튜링 완전이 곧 실용은 아니다’라는 결론이 본문 전체의 톤을 잡는다.
OpenBSD에 Vaultwarden 백엔드를 4년간 직접 운영해온 글쓴이가 이제 Bitwarden을 추천하지 않는 이유를 정리한 글. 공식 서버는 C#·MSSQL Express 기반의 무거운 엔터프라이즈 스택이라 Postgres·MariaDB 같은 Linux 친화 DB를 끼우기 어렵고, 그래서 커뮤니티는 Rust 기반의 Vaultwarden(별 3배)을 더 선호한다. 2022년 $100M 투자 이후 rent-seeking 패턴이 나타나기 시작했고, 최근에는 클라이언트에 SaaS 사용을 제약하는 라이선스의 sdk-internal이 슬그머니 들어왔다. 결론은 self-host라면 Vaultwarden, 그 외에는 다른 대안을 찾으라는 것.