Anthropic이 금융 서비스용 클로드 서비스를 출시하였습니다.
피치 자료 빌더, 어닝 검토, 모델 빌더 같은 에이전트가 기존 엑셀, 파워포인트, 워드, 아웃룩 안으로 들어오는 구조입니다.
앞서 공개된 BankerToolBench (벤치마크) 에서는 월가에서 재직중인 골드만삭스, 제이피모건, Evercore 현직자 502명이 100여개의 실제 투자은행 업무를 직접 모델에 돌려봤습니다.
결론은 양방향으로 나뉩니다. [1]
한쪽은 "조만간 금융 산업을 뒤흔들 것이며 주니어 뱅커의 자리는 없어질 것". 다른 한쪽에서는 "AI가 만든 작업물을 쓰레기(AI Slop)이라고 표현하며 절대로 고객에게 가치를 줄 수 없다"라고 주장 합니다.
그래서 궁금증이 생겼습니다. AI는 과연 주니어 뱅커의 업무를 대체할 수 있을까?
여러 자료를 들여다보고 리서치 해보니 앞으로의 방향은 조금 더 명확해졌습니다.
AI는 주니어 뱅커의 업무를 한 번에 대체하는 것이 아닌, 문서화/구조화된 업무부터 빠르게 습득하고 성공적으로 실행하면서 많은 미들/백 오피스 인력을 대체할 것.
그리고 금융업에서 사람이 할 수 있는 일은 매우 한정적으로 좁혀질 것.
1. 클로드 파이낸스 (Claude Finance)
금융 서비스용 Claude는 모델 출시가 아니라 작업 환경 출시입니다. 열 개의 에이전트 콤보 세트로 묶여 있으며, 금융업 주니어들이 매일 반복하는 가장 기본적인 1차 산출물과 가깝습니다.
자료 찾기
표 정리
초안 작성
숫자 검산
모델 업데이트
회의 전 메모 작성
공시와 트랜스크립트 훑기
이 업무들은 매우 피로도가 쌓이는 작업들이며 정말 지겹도록 해야하는 반복도가 높은 작업들입니다. 인풋 대비 아웃풋이 명확히 정해져 있는 그런 작업들로 구성 되어있습니다.
AI가 파고드는 곳은 정확히 이 지점입니다. 금융을 대체한다기보다, 설명 가능한 업무부터 흡수하고 있다고 보는 편이 더 정확하다고 봅니다.
Anthropic은 여기에 데이터 연결 (Data Connection)까지 붙였습니다. 기존 데이터 채널에 신규 채널을 더하고, Moody's 같은 외부 데이터셋도 연결하는 구조로 말이죠. 앞으로 많은 기업들은 유사한 워크플로우를 채택할 것이고 Microsoft 365 안에서 돌아가는 구조로 당분간 정착할 것으로 예상되어집니다.
실제로 출시 협력사들은 Citadel, BNY, Carlyle, Mizuho 등 금융업 내 산업을 불문하고 여러 기업으로 고르게 분포되어 있습니다.[2]
2. 첫번째 벤치마크 - Vals AI Financial Agent
벤치마크는 가설 검증에 유용하게 쓰입니다.
테스트로 사용된 Vals AI 금융 에이전트 1.1 버전은 537문항 데이터셋입니다. 부분점수 환경에서 Claude Opus 4.7이 64.37%, Sonnet 4.6이 63.33%를 기록합니다.[4]
2.0 버전으로 넘어가면서 결과는 더 참혹해집니다. Penalty 가 도입되고, 허용 범위가 엄격해지면서 같은 모델이라도 다른 측정 범위 아래에서는 다른 점수를 받았습니다.[5]
| 테스트 | 상위 모델 | 점수 |
|---|---|---|
| 1.1 버전 (537문항) | 클로드 오푸스 4.7 | 64.37% |
| 1.1 버전 | 클로드 소넷 4.6 | 63.33% |
| 2 버전 | 지피티 5.5 | 51.76% |
| 2 버전 | 클로드 오푸스 4.7 | 51.51% |
| 2 버전 | 클로드 소넷 4.6 | 51.03% |
2.0 버전에는 세 개의 다른 유형 테스트가 진행되었는데 작업 수행력 52%의 벽은 너무 높았습니다. 엄격한 페널티 부여 및 규칙 아래에서는 거의 모든 모델이 40% 아래에서 작업을 수행하였고 사람 손을 많이 타는 재무 모델링 카테고리만 떼어 보면 최고점이 23%입니다.[5]
3. 두번째 벤치마크 - BankerToolBench
뱅커툴벤치는 처음부터 끝까지 이어지는 100개의 투자은행 과제를 만들고, 골드만삭스와 제이피모건, 에버코어에서 일한 502명의 뱅커가 그 산출물을 직접 확인하고 채점했습니다.
실제로 AI가 아닌 사람이 같은 과제를 처음부터 끝내려면 평균 5시간, 최대 21시간이 걸립니다. 과제당 채점 항목은 평균 150개입니다.[6]
논문에서는 한 문장으로 결론을 내립니다. 평가 대상 모델은 기준의 절반 가까이를 통과하지 못했고, 뱅커들은 그 산출물 가운데 고객에게 그대로 보낼 수 있는 결과가 단 한 건도 없다고 평가했습니다.[6]
정확하게 정리해드리면 그대로 보낼 수 있는 수준은 0%, 13%가 가벼운 수정 및 편집 이후 사용 가능, 19%가 난이도가 높은 수정 필요, 41%가 대대적 재작업 필요, 27%가 아예 사용 불가입니다.[7]
실제 투자은행 업무에 가까운 과제를 모델에 맡기고, 현직자들이 산출물을 평가한 테스트입니다. 결과는 냉정했습니다. 모델이 만든 결과물 가운데 고객에게 그대로 보낼 수 있는 수준은 거의 없었습니다.
이 숫자만 보면 "AI는 아직 멀었다"고 말할 수 있습니다. 하지만 저는 그 결론도 조금 빠르다고 봅니다.
BankerToolBench가 보여준 것은 AI의 무능이 아니라, 투자은행 업무가 한 덩어리가 아니라는 사실입니다.
실패 유형을 풀어 보면 그림이 더 또렷합니다. 41%가 코드 또는 수식 버그, 27%가 비즈니스 로직 오류, 18%가 중도에 끊긴 데이터 쿼리, 13%가 조작된 숫자입니다.[7]
첫 두 항목은 규칙화가 가능한 영역 안에서 일어난 실패입니다.
저는 이 시점에서 직무를 한 번 더 나눠야 한다고 봅니다.
사람 손을 타지 않은 AI 산출물이 70점까지 올라오는 것과, 시니어가 이름을 걸고 고객에게 보내는 것은 다른 문제이기 때문입니다.
4. 어떤 작업이 자동화 될 것인가?
투자은행 애널리스트의 업무를 13단계 작업 흐름으로 풀어 보면 대략 7개의 업무 영역은 측정 가능한 작업이고, 6개의 업무영역은 판단이 요구 되는 추론의 영역입니다.
대체 가능한 것은 공시와 트랜스크립트 자료 찾기, 어닝 콜 요약, Comps 평가, 1차 가치 평가 모델, 피치 자료 초안, 투자 검토 메모 1차, 데이터룸 질의응답입니다.
대체 불가능한 것은 미공개 중요정보 판단, 경영진과의 통화, 매도자의 매각 동기, 자문사 관계 형성, 금융규제와 사내 정치 분위기 감지, 최종 투자 검토 "책임과 최종 승인"입니다.
이건 데이터 포인트라기보다 맥락입니다. 그리고 맥락은 문서 안에 깔끔하게 들어오지 않습니다.
제가 이 글을 쓰면서 가장 오래 붙잡은 부분도 여기였습니다. "AI가 무엇을 못 하느냐"가 아니라, "AI가 잘할수록 사람의 일은 어디로 밀려나느냐"였습니다.
답은 꽤 단순했습니다. 사람이 잘하는 일은 결국 검토, 서명, 판단, 관계, 그리고 책임에 위치합니다.
5. 국내 금융업의 AI 도입
미국 대형 금융기관에서는 도입이 빠를 수 있습니다. 데이터 구조가 더 표준화되어 있고, 내부 도구 예산도 큽니다. 반면 한국 금융업계는 상황이 조금 다릅니다.
한국 딜 환경에는 문서화되지 않는 정보가 훨씬 많습니다.
예를 들면 가족 승계, 후계자 적격성, 형제 분쟁 이력, 채권자 정리가 들어갑니다. 재벌 관계에서는 지분과 인적 네트워크, 계열사 거래 관행이 작동합니다. 금감원과 공정위 선에서는 정책 우선순위의 변동을 고려해볼수 있고 연기금의 투자 뉘앙스 및 정책금융의 선호 등 쉽게 파악하지 못하는 것들이 훨씬 많습니다.
창업자의 매각 동기와 자긍심 등 여러 복합 요소를 고려해봐야 합니다. 정치와 정책 우선순위는 정권 변화에 따른 산업 우선순위 재배치를 가리키기도 하죠.
이 컨텍스트는 글로벌 프론티어 AI 모델로 파악을 할 수가 없는 것들입니다. 비공식 자료거나 관계에 의해서 형성된 컨텍스트일 뿐입니다.
또한, 개인 신뢰, 평판, 협상 타이밍, 묵시적 합의입니다. 이 영역은 데이터화가 가장 늦게 닿는 자리입니다.
6. 앞으로의 시나리오
2026년 안에 지금 제 시야에 들어오는 변화는 규칙화 가능한 분석 및 반복 노동 영역입니다.
공시와 트랜스크립트 자료 찾기, 어닝 콜 요약은 사람이 4〜5시간 들이던 일이 도구가 도입된 환경에서 4〜5분 안에 끝납니다.
실제 사용사례로는 도입 속도가 빠른 일부 바이사이드와 투자은행의 1차적 애널리스트 작업 흐름에 한정될 것으로 예상됩니다.
2027〜2028년에는 피치 자료 초안, 1차 모델, 투자 검토 메모 초안이 대체 가능할 것으로 보고 있습니다. 이 시점에서 시니어 한 명이 5〜6개의 에이전트 작업 흐름을 동시에 검토하는 그림이 그려집니다. 다만 검토 시간이 줄어드는 그림은 아닙니다.
늘어나는 산출물에 대해 검토자가 들이는 시간이 직무 시간의 30〜50%를 차지하게 됩니다.
2029년 이후는 단정하기 어렵습니다. 다만 한 가지는 분명합니다. 검토와 서명, 관계 자본, 데이터룸 이외의 컨텍스트가 매우 중요해질 것이며 당장 대체되기 어려운 영역이라 판단합니다.
Damodaran (뉴욕대 교수)가 AI를 보는 프레임에서는, AI가 모든 직업을 통째로 없애는 게 아니라 일부 업무는 대체하고, 일부 업무는 사람을 보조하며, 기업들이 AI로 돈을 버는 속도는 시장 기대보다 느릴 수 있다고 봅니다.
Citrini Research의 2028년 시나리오는 "AI 생산성 증대 기여"가 아닙니다.[9] 오히려 반대입니다. AI가 너무 잘 작동해서 문제가 생기는 세계입니다.
반복 업무가 빠르게 자동화되고, 기업은 비용을 줄입니다. 그런데 그 비용의 반대편에는 누군가의 임금이 있습니다. 임금이 줄면 소비가 줄고, 소비가 줄면 매출이 줄고, 매출이 줄면 다시 해고가 늘어납니다. Citrini가 그린 것은 이 피드백 루프입니다.
보고서 안에서는 2028년 6월 미국 대형주 지수가 고점 대비 38% 하락하고, 실업률은 10.2%까지 올라가며, 모기지와 민간신용 스트레스가 동시에 터집니다. 이 숫자를 그대로 믿자는 얘기는 아닙니다. 중요한 건 따로 있습니다. AI가 단순히 "생산성 상승" 뿐만 아니라 "수요 붕괴"의 원인이 될 수 있다는 점을 간과해서는 안 됩니다.
7. 마무리
긴 글을 정리하면
Claude Finance가 주니어 뱅커를 하루아침에 대체한다고 보기는 어렵습니다. 다만 반복 리서치, 초안 작성, 표 정리, 모델 업데이트처럼 규칙화 가능한 업무는 빠르게 대체될 가능성이 큽니다.
반대로 고객에게 보내도 되는 최종 판단, 딜의 실제 맥락, 관계, 비공식 정보, 최종 책임은 쉽게 사라지지 않습니다. 오히려 AI가 초안을 더 많이 만들수록, 사람에게 남는 검토와 판단의 무게는 더 커질 수 있습니다.
그래서 지금 필요한 일은 막연히 "AI를 써야 한다"가 아닙니다. 본인의 업무 흐름을 두 단으로 나눠보는 일입니다.
첫 번째는 규칙화 가능한 일입니다. 자료를 찾고, 표를 만들고, 초안을 쓰고, 숫자를 다시 확인하는 일입니다. 이 중 가장 분명한 업무 하나를 골라 한 주만 실험해보면 됩니다. Claude든 Codex든, 이미 손에 익은 도구든 상관없습니다. 중요한 것은 시간을 얼마나 줄였는지가 아니라, 내 업무의 어느 단계가 실제로 도구와 잘 맞는지 확인하는 것입니다.
두 번째는 측정되지 않는 판단입니다. 이 자료를 고객에게 보내도 되는지, 이 가정이 실제 시장과 맞는지, 지금 이 말을 꺼내도 되는지 판단하는 일입니다. 앞으로 검토와 서명에 드는 시간은 줄어들기보다 늘어날 가능성이 큽니다. 시니어 시간 배분이 리뷰에 더 들어가는 것은 더 이상 비효율이 아닌, 생산성 증대에 대한 효과일 수도 있습니다.
모델이 답을 잘 만드는 것만큼이나 그 답을 어떻게 검토하고 실제 업무에 붙일지가 중요해집니다. 누가 확인하고, 어디서 멈추고, 어떤 기준을 넘으면 다음 단계로 넘어갈 수 있는지 정하는 일.
이 글에서 그린 그림이 1년 뒤에도 그대로 맞을지는 저도 모릅니다. 다만 한 가지는 점점 더 분명해지고 있습니다. 규칙화할 수 있는 일은 더 빠르게 자동화되고, 측정하기 어려운 판단은 더 중요한 일이 됩니다. 앞으로의 기회는 그 경계에 있을 가능성이 큽니다. 도구가 대신할 수 있는 일과, 사람이 끝까지 책임져야 하는 일 사이에서 새로운 제품과 새로운 전문가의 자리가 생기고 있습니다.
조금 무거운 글이었을지도 모르겠습니다. 그래도 이 글을 읽는 분들만큼은 스스로를 뒤처진 사람처럼 느끼지 않았으면 합니다. 이미 이 변화를 공부하고, 의심하고, 자기 일에 대입해보고 있다면 충분히 앞선 자리에 서 있는 것입니다.
AI 파도 속에서 휩쓸리지 마시고 그 파도를 타시길 바랍니다.
참고 자료
- 핸드셰이크 AI 리서치, 뱅커툴벤치 평가 프레임워크, 아카이브 2604.11304, 2026년 4월 13일 게재.
- 앤트로픽 공식 발표, 금융 서비스용 클로드 출시, 2026년 5월 5일.
- 앤트로픽 깃허브 financial-services 레포 README. 아파치 2.0 라이선스.
- 발스 AI 금융 에이전트 1.1 버전 리더보드, 2026년 5월 16일 확인.
- 발스 AI 금융 에이전트 2 버전 리더보드, 2026년 5월 16일 확인.
- 뱅커툴벤치 논문 초록과 허깅페이스 데이터셋 카드.
- 더 디코더, 500명의 투자은행가가 평가한 AI 산출물 요약, 2026년 4월 26일.
- 아스워스 다모다란, AI 파괴 분석, 서브스택, 2026년 3월 4일.
- 시트리니 리서치, 2028년 시나리오, 2026년 2월 22일.
- 포춘, 2026년 블랙 튜스데이 시장 반응 정리, 2026년 2월 26일.