8개월간 5개의 LLM에 1.4억원씩 맡겨 주식 거래를 시뮬레이션한 실험
(aitradearena.com)- GPT-5, Claude, Gemini, Grok, DeepSeek 등 5개의 대형 언어모델이 실제 시장 데이터를 기반으로 8개월간 가상 주식 거래를 수행
- 각 모델은 10만 달러의 모의 자금으로 주요 종목을 일일 단위로 거래하며, 모든 의사결정과 포트폴리오 변화를 기록
- 결과적으로 Grok이 최고 수익률, DeepSeek이 근소한 2위, Gemini는 비기술주 중심 포트폴리오로 최하위를 기록
- 실험은 2025년 2월 3일부터 10월 20일까지 진행되었으며, 모델이 훈련 시점 이후의 데이터만 접근하도록 시간 필터링된 API 환경을 구축
- 연구진은 이번 실험을 시작점으로 삼아, 실시간 거래 및 변수 통제 실험을 통해 LLM의 금융 분석 능력을 체계적으로 검증할 계획
AI Trade Arena 개요
-
AI Trade Arena는 LLM이 실제 금융 데이터를 분석하고 예측하는 능력을 평가하기 위해 구축된 실험 플랫폼
- Kam과 Josh가 공동 개발
- 모델이 뉴스, 재무제표, 시장 데이터를 바탕으로 주식 거래를 수행하도록 설계
- 플랫폼은 각 모델의 보유 종목, 거래 내역, 성과를 추적하며, 모든 거래 과정을 인터랙티브 데모로 공개
첫 번째 실험: 5개 LLM의 주식 거래
- 실험 대상은 GPT-5, Claude Sonnet 4.5, Gemini 2.5 Pro, Grok 4, DeepSeek
- 각 모델에 10만 달러의 모의 자금을 지급
- 옵션 거래는 제외, 주요 주식만 거래
- 모든 거래는 실제 과거 주가를 기반으로 수행되며, 모델은 해당 시점에 공개된 정보만 접근
- 뉴스 API, 기업 재무정보, 시장 데이터가 시간 필터링되어 제공
- 실험 기간은 2025년 2월 3일~10월 20일, 약 8개월간 진행
백테스팅의 개념과 한계
- 백테스트는 과거 데이터를 이용해 거래 알고리듬의 성과를 검증하는 방식
- LLM이 과거 시점에서 어떤 결정을 내렸을지를 시뮬레이션
- 미래 데이터가 유출되지 않도록 API를 시계열로 분리
-
장점
- 대규모 모델 평가 가능
- 다양한 시나리오를 빠르게 테스트
- 통계적으로 의미 있는 결과 확보 가능
-
단점
- 현실 시장의 경쟁적·유동성 환경을 완전히 재현하지 못함
- 슬리피지, 거래량 제약, 미래 데이터 누출 위험 존재
- 과거 데이터에 과적합(overfitting) 가능성
실험 결과와 관찰
- 모든 모델은 훈련 데이터 컷오프 이후의 기간만을 대상으로 테스트
- 모델이 과거 시장 결과를 암기한 상태로 거래하지 않도록 설정
-
Grok이 최고 성과, DeepSeek이 근소한 2위
- 대부분의 모델이 기술주 중심 포트폴리오를 구성해 높은 수익률을 기록
- Gemini는 비기술주 비중이 높아 최하위 성과
- 연구진은 거래 과정과 이유를 모두 공개해 투명성 확보
- 각 거래의 근거를 UI에서 직접 확인 가능
향후 계획
- 연구진은 백테스트뿐 아니라 실시간 거래 실험으로 확장 예정
- 3단계 접근: 과거 시나리오 백테스트 → 실시간 모의 거래 → 실제 시장 거래
- 목표는 LLM의 금융시장 분석 능력과 의사결정 품질을 체계적으로 이해하는 것
- 시장 데이터를 현실 기반 평가 지표로 활용
- Barra 요인 분석 등을 통해 운과 실력의 구분 시도
- 거래 기록을 통해 암기 기반 판단과 실제 추론의 차이를 식별 가능
- 예: 단순히 Nvidia를 기억해 매수하는 것과, 10-K 보고서를 분석해 근본적 통찰을 얻는 것의 구분
- 이러한 투명한 의사결정 분석을 통해 모델의 도구 구성과 워크플로우 개선 가능
참여 및 데이터 탐색
- 웹사이트의 인터랙티브 데모에서 각 모델의 거래, 전략, 추론 과정을 직접 탐색 가능
- 연구진은 추가 실험을 계획 중이며, Discord 커뮤니티 및 Twitter DM을 통해 의견을 수집 중
Hacker News 의견
-
Grok이 가장 좋은 성과를 냈고 DeepSeek이 근소한 2위를 차지했음
대부분의 모델이 기술주 중심 포트폴리오를 가지고 있어서 좋은 결과를 낸 것으로 보임
반면 Gemini는 비기술주 비중이 높아 최하위를 기록했음
나는 투자자도 연구자도 아니지만, 이 결과는 뭔가 측정 지표가 잘못된 것처럼 느껴짐- 기술 섹터가 계속 상승한다고 믿으면 시장 평균을 이길 수 있음
하지만 조정 시점을 예측할 수 없다는 게 문제임
데이터에 하락장이 포함되지 않았다면 모델이 그 상황을 학습할 수 없을 것임
오히려 데이터를 절반으로 나눠 한쪽으로 학습하고 다른 절반으로 테스트하는 게 더 흥미로울 것 같음
헤지펀드도 2~4년은 시장을 이길 수 있지만 10년 이상은 거의 불가능하다는 점을 떠올리게 됨 - 더 타당한 접근은 각 모델별로 100개의 포트폴리오를 만들어 몬테카를로 시뮬레이션을 돌려 평균 성과를 보는 것임
- 이 연구를 약세장(bear market) 에서도 반복해보면 좋겠음
- S&P 500도 기술주 비중이 높고 장기적으로 이기기 어려운 지수임
- 이 실험은 시점별 맥락을 고려하지 않고 단순히 최근 성과만 보여주는 듯함
시기별로 모델을 재학습하고 백테스트(backtesting) 를 해야 더 의미 있는 결과를 얻을 수 있음
- 기술 섹터가 계속 상승한다고 믿으면 시장 평균을 이길 수 있음
-
예전에 알고리즘 트레이딩용 브로커리지 API에서 일했는데, 백테스트에서는 잘 되던 전략이 실제 시장에서는 실패하는 경우가 많았음
실시간 종이거래(paper trading)조차 실제 시장과는 다르게 작동함
DeepSeek은 매도 없이 기술주를 많이 보유해 좋은 성과를 냈지만, 한 섹터에 집중된 전략은 위험함
하루에 한 번만 거래할 수 있었다는 점에서 실시간 의사결정 실험은 아님
만약 LLM이 적절한 시점에 섹터를 전환할 수 있다면 정말 인상적일 것임- 실제 시장에서는 주문이 시장조성자(front running) 에게 우선 매칭될 수 있고,
다른 참여자들이 주문을 취소하거나 따라오는 등 시장 영향력(market impact) 이 존재함
이런 현상은 종이거래에서는 발생하지 않음 - 진짜 돈이 걸리면 감정적 요인이 개입되어 기계의 판단을 완전히 신뢰하기 어려움
- 수많은 전략을 시도하면 우연히 과거 데이터에 맞는 전략이 나올 수 있어 백테스트만으로는 무의미함
- 나도 ThinkOrSwim으로 종이거래할 땐 돈을 두세 배로 불렸지만, 실제 시장에서는 완전히 실패했음
- 실제 시장에서는 주문이 시장조성자(front running) 에게 우선 매칭될 수 있고,
-
모델당 한 번만 실행했다면 그건 제대로 된 백테스트가 아님
단 한 시점의 결과만 본다면 “AI 관련주를 사라” 같은 단순 전략도 우연히 잘 맞을 수 있음
10개의 서로 다른 시장 구간에서 100회씩 독립 실행해야 의미 있는 통계가 나올 것임
지금 실험은 비싼 무작위 생성기(random number generator) 에 불과함- 예산이 한정돼서 모델 실행을 여러 번 못 했음
예를 들어 Claude는 8개월 실행에 200~300달러가 들었음
더 큰 규모로 확장해 통계적으로 유의미한 결과를 내고 싶었음 - 논문에서도 결과가 통계적으로 유의하지 않다고 명시했지만, 그 점이 더 강조됐으면 좋겠음
지금은 마치 결과 중심의 기사처럼 보임 - 총 수익률 외에 다른 지표(metric) 가 없다는 것도 문제임
무작위로 주식을 골라도 S&P 500을 이길 확률이 높기 때문임 - 극단적으로는 “2010년 1월 1일에 어떤 주식을 사면 15년 뒤 수익이 최대일까?” 같은 실험도 가능함
하지만 그 전략을 앞으로 15년간 그대로 쓸 사람은 없을 것임 - 한 번 실행한 결과는 사실상 랜덤 워크(random walk) 에 불과함
- 예산이 한정돼서 모델 실행을 여러 번 못 했음
-
현재 진행 중인 nof1.ai 리더보드도 있음
결과는 기대 이하이며, 대부분의 AI가 Mag7 기술주 단타 매매에 집중하다가 손실을 보고 있음- nof1의 한계는 실제 투자자가 참고할 기업 분석 데이터를 거의 사용하지 않는다는 점임
우리는 이를 보완해 rallies.ai/arena에서 유사한 실험을 진행 중임 - 어제 X(트위터)에서 화제가 된 걸 보고 nof1 결과인 줄 알았는데, 완전히 다른 실험이었음
그래도 nof1의 실시간 투자 코멘터리 대시보드는 보는 재미가 있음 - 사이트를 보면 모델들이 소수의 기술주와 XYZ100 코인만 거래할 수 있는 것 같음
- 혹시 그 “미스터리 모델”이 그들 자체 모델 아닐까 싶음
- 가격 정보가 너무 빠르게 퍼지기 때문에, 결과는 에이전트 구조와 피드백 루프에 크게 의존함
- nof1의 한계는 실제 투자자가 참고할 기업 분석 데이터를 거의 사용하지 않는다는 점임
-
작성자(OP)임
백테스트와 가상 자금의 한계를 알고 있었지만, 그래도 모델이 시장을 어떻게 인식하는지 보여주고 싶었음
장기적으로 시장을 이길 수 있다는 의미는 아님- 인간 참가자와 비교하는 통제 실험도 해보면 좋겠음
- 실제 돈이 오가는 거래가 아니므로 시장 영향력이 전혀 없음
-
리스크 조정 수익률을 공개하지 않으면 결과의 의미가 약함
상승장에 베타가 높은 포트폴리오를 갖는 건 특별한 성과가 아님 - “DeepSeek came close to second” 대신 “came in a close second”가 맞는 표현임
- 자본시장 연구 박사로서, 비정상 수익률(알파) 을 계산해줘야 진짜 초과성과를 판단할 수 있다고 생각함
-
우리도 주식과 옵션을 대상으로 실시간 실험을 진행 중임
모델이 SEC 공시, 펀더멘털, 실시간 가격, 옵션 데이터 등 다양한 도구 접근권한을 가짐
LLM은 이미 과거 데이터를 거의 다 기억하고 있어서 백테스트는 의미가 없다고 봄
그래서 포워드 테스트를 진행 중이며, 아직 데이터는 적지만 흥미로운 초기 결과가 나옴
rallies.ai/arena- 코드나 프롬프트가 오픈소스가 아니라면 신뢰하기 어렵지 않겠냐는 의문이 있음
- Qwen이 다른 모델보다 훨씬 나쁜 성과를 낸 이유가 궁금함
-
비슷한 실험이 암호화폐를 대상으로 실제 자금과 실시간 거래로 진행된 적 있음
관련 링크
나는 LLM의 미래 데이터 누출 방지가 거의 불가능하다고 봄
연구에서도 어렵다고 밝혀졌고, 나도 예측 모델을 다루며 그 어려움을 직접 경험했음 -
백테스트는 실제 거래와 다르기 때문에 큰 의미가 없음
게다가 8개월은 너무 짧은 기간임
나는 8개월보다 8년 뒤 시장이 더 중요하다고 생각함- LLM 백테스트를 하려면 과거 데이터를 완전히 세탁(white-wash) 해야 함
종목명을 지워도 모델이 그래프 형태만 보고 NVDA를 추측할 수 있을 정도로 학습되어 있을 가능성이 있음
- LLM 백테스트를 하려면 과거 데이터를 완전히 세탁(white-wash) 해야 함
-
이런 모델들의 백테스트 결과는 신뢰하기 어려움
실제 비용을 고려한 실시간 8개월 실험을 해야 의미가 있음- 우리는 현재 주식과 옵션을 대상으로 라이브 실험을 진행 중임
rallies.ai/arena
- 우리는 현재 주식과 옵션을 대상으로 라이브 실험을 진행 중임
-
이건 완전히 잘못된 접근임
나는 실제로 LLM을 트레이딩에 활용하는 연구자로 일하고 있음
LLM은 순진하고, 쉽게 설득되며, 비결정적(non-deterministic) 임
같은 실험을 10번 하면 매번 다른 결과가 나올 수 있음
올바른 방법은 먼저 결정론적 트레이딩 알고리즘을 만들고, 그 위에 LLM을 보조 도구로 얹는 것임
LLM을 직접 거래 파이프라인에 넣으면 불필요한 불확실성만 늘어남
감정 분석이나 보조 ML 작업을 빠르게 연결하는 용도로는 가치가 있음
하지만 지금 같은 실험은 도메인 이해 없이 AI를 붙인 전형적인 사례임
진짜 유의미한 연구는 섹터 노출 등 변수를 통제하고 수천 번 반복해 LLM별 편향 패턴을 분석하는 것임
만약 LLM이 스스로 “퀀트 알고리즘을 설계하겠다”고 하고 실제로 성공한다면 그건 놀라운 일일 것임