# 8개월간 5개의 LLM에 1.4억원씩 맡겨 주식 거래를 시뮬레이션한 실험

> Clean Markdown view of GeekNews topic #24864. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=24864](https://news.hada.io/topic?id=24864)
- GeekNews Markdown: [https://news.hada.io/topic/24864.md](https://news.hada.io/topic/24864.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-12-06T07:33:15+09:00
- Updated: 2025-12-06T07:33:15+09:00
- Original source: [aitradearena.com](https://www.aitradearena.com/research/we-ran-llms-for-8-months)
- Points: 11
- Comments: 1

## Summary

**AI Trade Arena**는 대형 언어모델이 실제 시장 데이터를 기반으로 주식 거래를 수행하도록 설계된 실험 플랫폼입니다. 8개월간 진행된 첫 실험에서 **Grok이 가장 높은 수익률**, **DeepSeek이 근소한 2위**를 기록했으며, 모든 모델은 훈련 시점 이후의 데이터만 접근하도록 제한되었습니다. 연구진은 이번 결과를 바탕으로 실시간 거래와 변수 통제 실험으로 확장해, LLM의 **금융 분석 및 의사결정 능력**을 체계적으로 검증할 계획입니다.   
  
뭔가 정석이 아닌 쪽에선 항상 Grok 이 선두인 것 같다는 생각이 드는군요.

## Topic Body

- **GPT-5, Claude, Gemini, Grok, DeepSeek** 등 5개의 대형 언어모델이 실제 시장 데이터를 기반으로 8개월간 **가상 주식 거래**를 수행  
- 각 모델은 **10만 달러의 모의 자금**으로 주요 종목을 일일 단위로 거래하며, 모든 의사결정과 포트폴리오 변화를 기록  
- 결과적으로 **Grok이 최고 수익률**, **DeepSeek이 근소한 2위**, **Gemini는 비기술주 중심 포트폴리오로 최하위**를 기록  
- 실험은 **2025년 2월 3일부터 10월 20일까지** 진행되었으며, 모델이 훈련 시점 이후의 데이터만 접근하도록 **시간 필터링된 API** 환경을 구축  
- 연구진은 이번 실험을 시작점으로 삼아, **실시간 거래 및 변수 통제 실험**을 통해 LLM의 금융 분석 능력을 체계적으로 검증할 계획  
  
---  
  
### AI Trade Arena 개요  
- **AI Trade Arena**는 LLM이 실제 금융 데이터를 분석하고 예측하는 능력을 평가하기 위해 구축된 실험 플랫폼  
  - Kam과 Josh가 공동 개발  
  - 모델이 뉴스, 재무제표, 시장 데이터를 바탕으로 주식 거래를 수행하도록 설계  
- 플랫폼은 각 모델의 **보유 종목, 거래 내역, 성과**를 추적하며, 모든 거래 과정을 **인터랙티브 데모**로 공개  
  
### 첫 번째 실험: 5개 LLM의 주식 거래  
- 실험 대상은 **GPT-5, Claude Sonnet 4.5, Gemini 2.5 Pro, Grok 4, DeepSeek**  
  - 각 모델에 **10만 달러의 모의 자금**을 지급  
  - **옵션 거래는 제외**, 주요 주식만 거래  
- 모든 거래는 실제 과거 주가를 기반으로 수행되며, 모델은 **해당 시점에 공개된 정보만 접근**  
  - 뉴스 API, 기업 재무정보, 시장 데이터가 **시간 필터링**되어 제공  
- 실험 기간은 **2025년 2월 3일~10월 20일**, 약 8개월간 진행  
  
### 백테스팅의 개념과 한계  
- 백테스트는 **과거 데이터를 이용해 거래 알고리듬의 성과를 검증**하는 방식  
  - LLM이 과거 시점에서 어떤 결정을 내렸을지를 시뮬레이션  
  - 미래 데이터가 유출되지 않도록 **API를 시계열로 분리**  
- **장점**  
  - 대규모 모델 평가 가능  
  - 다양한 시나리오를 빠르게 테스트  
  - 통계적으로 의미 있는 결과 확보 가능  
- **단점**  
  - 현실 시장의 경쟁적·유동성 환경을 완전히 재현하지 못함  
  - **슬리피지, 거래량 제약, 미래 데이터 누출 위험** 존재  
  - 과거 데이터에 **과적합(overfitting)** 가능성  
  
### 실험 결과와 관찰  
- 모든 모델은 **훈련 데이터 컷오프 이후의 기간**만을 대상으로 테스트  
  - 모델이 과거 시장 결과를 암기한 상태로 거래하지 않도록 설정  
- **Grok이 최고 성과**, **DeepSeek이 근소한 2위**  
  - 대부분의 모델이 **기술주 중심 포트폴리오**를 구성해 높은 수익률을 기록  
  - **Gemini**는 비기술주 비중이 높아 **최하위 성과**  
- 연구진은 거래 과정과 이유를 모두 공개해 **투명성 확보**  
  - 각 거래의 근거를 UI에서 직접 확인 가능  
  
### 향후 계획  
- 연구진은 **백테스트뿐 아니라 실시간 거래 실험**으로 확장 예정  
  - 3단계 접근: 과거 시나리오 백테스트 → 실시간 모의 거래 → 실제 시장 거래  
- 목표는 LLM의 **금융시장 분석 능력과 의사결정 품질**을 체계적으로 이해하는 것  
  - 시장 데이터를 **현실 기반 평가 지표**로 활용  
  - **Barra 요인 분석** 등을 통해 운과 실력의 구분 시도  
- 거래 기록을 통해 **암기 기반 판단과 실제 추론의 차이**를 식별 가능  
  - 예: 단순히 Nvidia를 기억해 매수하는 것과, 10-K 보고서를 분석해 근본적 통찰을 얻는 것의 구분  
- 이러한 **투명한 의사결정 분석**을 통해 모델의 **도구 구성과 워크플로우 개선** 가능  
  
### 참여 및 데이터 탐색  
- 웹사이트의 **인터랙티브 데모**에서 각 모델의 거래, 전략, 추론 과정을 직접 탐색 가능  
- 연구진은 추가 실험을 계획 중이며, **Discord 커뮤니티 및 Twitter DM**을 통해 의견을 수집 중

## Comments


### Comment 47285

- Author: neo
- Created: 2025-12-06T07:33:15+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=46154491) 
- Grok이 가장 좋은 성과를 냈고 DeepSeek이 근소한 2위를 차지했음  
  대부분의 모델이 **기술주 중심 포트폴리오**를 가지고 있어서 좋은 결과를 낸 것으로 보임  
  반면 Gemini는 비기술주 비중이 높아 최하위를 기록했음  
  나는 투자자도 연구자도 아니지만, 이 결과는 뭔가 **측정 지표가 잘못된 것**처럼 느껴짐
  - 기술 섹터가 계속 상승한다고 믿으면 시장 평균을 이길 수 있음  
    하지만 **조정 시점**을 예측할 수 없다는 게 문제임  
    데이터에 하락장이 포함되지 않았다면 모델이 그 상황을 학습할 수 없을 것임  
    오히려 데이터를 절반으로 나눠 한쪽으로 학습하고 다른 절반으로 테스트하는 게 더 흥미로울 것 같음  
    헤지펀드도 2~4년은 시장을 이길 수 있지만 10년 이상은 거의 불가능하다는 점을 떠올리게 됨
  - 더 타당한 접근은 각 모델별로 100개의 포트폴리오를 만들어 **몬테카를로 시뮬레이션**을 돌려 평균 성과를 보는 것임
  - 이 연구를 **약세장(bear market)** 에서도 반복해보면 좋겠음
  - S&P 500도 기술주 비중이 높고 장기적으로 이기기 어려운 지수임
  - 이 실험은 시점별 맥락을 고려하지 않고 단순히 최근 성과만 보여주는 듯함  
    시기별로 모델을 재학습하고 **백테스트(backtesting)** 를 해야 더 의미 있는 결과를 얻을 수 있음

- 예전에 **알고리즘 트레이딩용 브로커리지 API**에서 일했는데, 백테스트에서는 잘 되던 전략이 실제 시장에서는 실패하는 경우가 많았음  
  실시간 종이거래(paper trading)조차 실제 시장과는 다르게 작동함  
  DeepSeek은 매도 없이 기술주를 많이 보유해 좋은 성과를 냈지만, 한 섹터에 집중된 전략은 위험함  
  하루에 한 번만 거래할 수 있었다는 점에서 **실시간 의사결정** 실험은 아님  
  만약 LLM이 적절한 시점에 섹터를 전환할 수 있다면 정말 인상적일 것임
  - 실제 시장에서는 주문이 **시장조성자(front running)** 에게 우선 매칭될 수 있고,  
    다른 참여자들이 주문을 취소하거나 따라오는 등 **시장 영향력(market impact)** 이 존재함  
    이런 현상은 종이거래에서는 발생하지 않음
  - 진짜 돈이 걸리면 **감정적 요인**이 개입되어 기계의 판단을 완전히 신뢰하기 어려움
  - 수많은 전략을 시도하면 우연히 과거 데이터에 맞는 전략이 나올 수 있어 **백테스트만으로는 무의미함**
  - 나도 ThinkOrSwim으로 종이거래할 땐 돈을 두세 배로 불렸지만, 실제 시장에서는 완전히 실패했음

- 모델당 한 번만 실행했다면 그건 제대로 된 백테스트가 아님  
  단 한 시점의 결과만 본다면 “AI 관련주를 사라” 같은 단순 전략도 우연히 잘 맞을 수 있음  
  **10개의 서로 다른 시장 구간**에서 100회씩 독립 실행해야 의미 있는 통계가 나올 것임  
  지금 실험은 비싼 **무작위 생성기(random number generator)** 에 불과함
  - 예산이 한정돼서 모델 실행을 여러 번 못 했음  
    예를 들어 Claude는 8개월 실행에 200~300달러가 들었음  
    더 큰 규모로 확장해 통계적으로 유의미한 결과를 내고 싶었음
  - 논문에서도 결과가 **통계적으로 유의하지 않다**고 명시했지만, 그 점이 더 강조됐으면 좋겠음  
    지금은 마치 결과 중심의 기사처럼 보임
  - 총 수익률 외에 다른 **지표(metric)** 가 없다는 것도 문제임  
    무작위로 주식을 골라도 S&P 500을 이길 확률이 높기 때문임
  - 극단적으로는 “2010년 1월 1일에 어떤 주식을 사면 15년 뒤 수익이 최대일까?” 같은 실험도 가능함  
    하지만 그 전략을 앞으로 15년간 그대로 쓸 사람은 없을 것임
  - 한 번 실행한 결과는 사실상 **랜덤 워크(random walk)** 에 불과함

- 현재 진행 중인 [nof1.ai 리더보드](https://nof1.ai/leaderboard)도 있음  
  결과는 기대 이하이며, 대부분의 AI가 **Mag7 기술주 단타 매매**에 집중하다가 손실을 보고 있음
  - nof1의 한계는 실제 투자자가 참고할 **기업 분석 데이터**를 거의 사용하지 않는다는 점임  
    우리는 이를 보완해 [rallies.ai/arena](https://rallies.ai/arena)에서 유사한 실험을 진행 중임
  - 어제 X(트위터)에서 화제가 된 걸 보고 nof1 결과인 줄 알았는데, 완전히 다른 실험이었음  
    그래도 nof1의 **실시간 투자 코멘터리 대시보드**는 보는 재미가 있음
  - 사이트를 보면 모델들이 소수의 기술주와 **XYZ100 코인**만 거래할 수 있는 것 같음
  - 혹시 그 “미스터리 모델”이 그들 자체 모델 아닐까 싶음
  - 가격 정보가 너무 빠르게 퍼지기 때문에, 결과는 **에이전트 구조와 피드백 루프**에 크게 의존함

- 작성자(OP)임  
  백테스트와 가상 자금의 한계를 알고 있었지만, 그래도 **모델이 시장을 어떻게 인식하는지** 보여주고 싶었음  
  장기적으로 시장을 이길 수 있다는 의미는 아님
  - 인간 참가자와 비교하는 **통제 실험**도 해보면 좋겠음
  - 실제 돈이 오가는 거래가 아니므로 **시장 영향력**이 전혀 없음
  - **리스크 조정 수익률**을 공개하지 않으면 결과의 의미가 약함  
    상승장에 베타가 높은 포트폴리오를 갖는 건 특별한 성과가 아님
  - “DeepSeek came close to second” 대신 “came in a close second”가 맞는 표현임
  - 자본시장 연구 박사로서, **비정상 수익률(알파)** 을 계산해줘야 진짜 초과성과를 판단할 수 있다고 생각함

- 우리도 주식과 옵션을 대상으로 **실시간 실험**을 진행 중임  
  모델이 SEC 공시, 펀더멘털, 실시간 가격, 옵션 데이터 등 다양한 **도구 접근권한**을 가짐  
  LLM은 이미 과거 데이터를 거의 다 기억하고 있어서 백테스트는 의미가 없다고 봄  
  그래서 **포워드 테스트**를 진행 중이며, 아직 데이터는 적지만 흥미로운 초기 결과가 나옴  
  [rallies.ai/arena](https://rallies.ai/arena)
  - 코드나 프롬프트가 **오픈소스**가 아니라면 신뢰하기 어렵지 않겠냐는 의문이 있음
  - Qwen이 다른 모델보다 훨씬 나쁜 성과를 낸 이유가 궁금함

- 비슷한 실험이 암호화폐를 대상으로 **실제 자금과 실시간 거래**로 진행된 적 있음  
  [관련 링크](https://news.ycombinator.com/item?id=45976832)  
  나는 LLM의 **미래 데이터 누출 방지**가 거의 불가능하다고 봄  
  연구에서도 어렵다고 밝혀졌고, 나도 예측 모델을 다루며 그 어려움을 직접 경험했음

- 백테스트는 실제 거래와 다르기 때문에 큰 의미가 없음  
  게다가 8개월은 너무 짧은 기간임  
  나는 8개월보다 **8년 뒤 시장**이 더 중요하다고 생각함
  - LLM 백테스트를 하려면 과거 데이터를 완전히 **세탁(white-wash)** 해야 함  
    종목명을 지워도 모델이 **그래프 형태만 보고 NVDA를 추측**할 수 있을 정도로 학습되어 있을 가능성이 있음

- 이런 모델들의 백테스트 결과는 신뢰하기 어려움  
  실제 비용을 고려한 **실시간 8개월 실험**을 해야 의미가 있음
  - 우리는 현재 주식과 옵션을 대상으로 **라이브 실험**을 진행 중임  
    [rallies.ai/arena](https://rallies.ai/arena)

- 이건 완전히 잘못된 접근임  
  나는 실제로 **LLM을 트레이딩에 활용하는 연구자**로 일하고 있음  
  LLM은 순진하고, 쉽게 설득되며, **비결정적(non-deterministic)** 임  
  같은 실험을 10번 하면 매번 다른 결과가 나올 수 있음  
  올바른 방법은 먼저 **결정론적 트레이딩 알고리즘**을 만들고, 그 위에 LLM을 보조 도구로 얹는 것임  
  LLM을 직접 거래 파이프라인에 넣으면 불필요한 불확실성만 늘어남  
  감정 분석이나 보조 ML 작업을 빠르게 연결하는 용도로는 가치가 있음  
  하지만 지금 같은 실험은 **도메인 이해 없이 AI를 붙인 전형적인 사례**임  
  진짜 유의미한 연구는 섹터 노출 등 변수를 통제하고 수천 번 반복해 **LLM별 편향 패턴**을 분석하는 것임  
  만약 LLM이 스스로 “퀀트 알고리즘을 설계하겠다”고 하고 실제로 성공한다면 그건 놀라운 일일 것임