8개월간 5개의 LLM에 1.4억원씩 맡겨 주식 거래를

▲

GN⁺ 4달전 | parent | ★ favorite | on: 8개월간 5개의 LLM에 1.4억원씩 맡겨 주식 거래를 시뮬레이션한 실험(aitradearena.com)

Hacker News 의견

Grok이 가장 좋은 성과를 냈고 DeepSeek이 근소한 2위를 차지했음
대부분의 모델이 기술주 중심 포트폴리오를 가지고 있어서 좋은 결과를 낸 것으로 보임
반면 Gemini는 비기술주 비중이 높아 최하위를 기록했음
나는 투자자도 연구자도 아니지만, 이 결과는 뭔가 측정 지표가 잘못된 것처럼 느껴짐
- 기술 섹터가 계속 상승한다고 믿으면 시장 평균을 이길 수 있음
  하지만 조정 시점을 예측할 수 없다는 게 문제임
  데이터에 하락장이 포함되지 않았다면 모델이 그 상황을 학습할 수 없을 것임
  오히려 데이터를 절반으로 나눠 한쪽으로 학습하고 다른 절반으로 테스트하는 게 더 흥미로울 것 같음
  헤지펀드도 2~4년은 시장을 이길 수 있지만 10년 이상은 거의 불가능하다는 점을 떠올리게 됨
- 더 타당한 접근은 각 모델별로 100개의 포트폴리오를 만들어 몬테카를로 시뮬레이션을 돌려 평균 성과를 보는 것임
- 이 연구를 약세장(bear market) 에서도 반복해보면 좋겠음
- S&P 500도 기술주 비중이 높고 장기적으로 이기기 어려운 지수임
- 이 실험은 시점별 맥락을 고려하지 않고 단순히 최근 성과만 보여주는 듯함
  시기별로 모델을 재학습하고 백테스트(backtesting) 를 해야 더 의미 있는 결과를 얻을 수 있음
예전에 알고리즘 트레이딩용 브로커리지 API에서 일했는데, 백테스트에서는 잘 되던 전략이 실제 시장에서는 실패하는 경우가 많았음
실시간 종이거래(paper trading)조차 실제 시장과는 다르게 작동함
DeepSeek은 매도 없이 기술주를 많이 보유해 좋은 성과를 냈지만, 한 섹터에 집중된 전략은 위험함
하루에 한 번만 거래할 수 있었다는 점에서 실시간 의사결정 실험은 아님
만약 LLM이 적절한 시점에 섹터를 전환할 수 있다면 정말 인상적일 것임
- 실제 시장에서는 주문이 시장조성자(front running) 에게 우선 매칭될 수 있고,
  다른 참여자들이 주문을 취소하거나 따라오는 등 시장 영향력(market impact) 이 존재함
  이런 현상은 종이거래에서는 발생하지 않음
- 진짜 돈이 걸리면 감정적 요인이 개입되어 기계의 판단을 완전히 신뢰하기 어려움
- 수많은 전략을 시도하면 우연히 과거 데이터에 맞는 전략이 나올 수 있어 백테스트만으로는 무의미함
- 나도 ThinkOrSwim으로 종이거래할 땐 돈을 두세 배로 불렸지만, 실제 시장에서는 완전히 실패했음
모델당 한 번만 실행했다면 그건 제대로 된 백테스트가 아님
단 한 시점의 결과만 본다면 “AI 관련주를 사라” 같은 단순 전략도 우연히 잘 맞을 수 있음
10개의 서로 다른 시장 구간에서 100회씩 독립 실행해야 의미 있는 통계가 나올 것임
지금 실험은 비싼 무작위 생성기(random number generator) 에 불과함
- 예산이 한정돼서 모델 실행을 여러 번 못 했음
  예를 들어 Claude는 8개월 실행에 200~300달러가 들었음
  더 큰 규모로 확장해 통계적으로 유의미한 결과를 내고 싶었음
- 논문에서도 결과가 통계적으로 유의하지 않다고 명시했지만, 그 점이 더 강조됐으면 좋겠음
  지금은 마치 결과 중심의 기사처럼 보임
- 총 수익률 외에 다른 지표(metric) 가 없다는 것도 문제임
  무작위로 주식을 골라도 S&P 500을 이길 확률이 높기 때문임
- 극단적으로는 “2010년 1월 1일에 어떤 주식을 사면 15년 뒤 수익이 최대일까?” 같은 실험도 가능함
  하지만 그 전략을 앞으로 15년간 그대로 쓸 사람은 없을 것임
- 한 번 실행한 결과는 사실상 랜덤 워크(random walk) 에 불과함
현재 진행 중인 nof1.ai 리더보드도 있음
결과는 기대 이하이며, 대부분의 AI가 Mag7 기술주 단타 매매에 집중하다가 손실을 보고 있음
- nof1의 한계는 실제 투자자가 참고할 기업 분석 데이터를 거의 사용하지 않는다는 점임
  우리는 이를 보완해 rallies.ai/arena에서 유사한 실험을 진행 중임
- 어제 X(트위터)에서 화제가 된 걸 보고 nof1 결과인 줄 알았는데, 완전히 다른 실험이었음
  그래도 nof1의 실시간 투자 코멘터리 대시보드는 보는 재미가 있음
- 사이트를 보면 모델들이 소수의 기술주와 XYZ100 코인만 거래할 수 있는 것 같음
- 혹시 그 “미스터리 모델”이 그들 자체 모델 아닐까 싶음
- 가격 정보가 너무 빠르게 퍼지기 때문에, 결과는 에이전트 구조와 피드백 루프에 크게 의존함
작성자(OP)임
백테스트와 가상 자금의 한계를 알고 있었지만, 그래도 모델이 시장을 어떻게 인식하는지 보여주고 싶었음
장기적으로 시장을 이길 수 있다는 의미는 아님
- 인간 참가자와 비교하는 통제 실험도 해보면 좋겠음
- 실제 돈이 오가는 거래가 아니므로 시장 영향력이 전혀 없음
- 리스크 조정 수익률을 공개하지 않으면 결과의 의미가 약함
  상승장에 베타가 높은 포트폴리오를 갖는 건 특별한 성과가 아님
- “DeepSeek came close to second” 대신 “came in a close second”가 맞는 표현임
- 자본시장 연구 박사로서, 비정상 수익률(알파) 을 계산해줘야 진짜 초과성과를 판단할 수 있다고 생각함
우리도 주식과 옵션을 대상으로 실시간 실험을 진행 중임
모델이 SEC 공시, 펀더멘털, 실시간 가격, 옵션 데이터 등 다양한 도구 접근권한을 가짐
LLM은 이미 과거 데이터를 거의 다 기억하고 있어서 백테스트는 의미가 없다고 봄
그래서 포워드 테스트를 진행 중이며, 아직 데이터는 적지만 흥미로운 초기 결과가 나옴
rallies.ai/arena
- 코드나 프롬프트가 오픈소스가 아니라면 신뢰하기 어렵지 않겠냐는 의문이 있음
- Qwen이 다른 모델보다 훨씬 나쁜 성과를 낸 이유가 궁금함
비슷한 실험이 암호화폐를 대상으로 실제 자금과 실시간 거래로 진행된 적 있음
관련 링크
나는 LLM의 미래 데이터 누출 방지가 거의 불가능하다고 봄
연구에서도 어렵다고 밝혀졌고, 나도 예측 모델을 다루며 그 어려움을 직접 경험했음
백테스트는 실제 거래와 다르기 때문에 큰 의미가 없음
게다가 8개월은 너무 짧은 기간임
나는 8개월보다 8년 뒤 시장이 더 중요하다고 생각함
- LLM 백테스트를 하려면 과거 데이터를 완전히 세탁(white-wash) 해야 함
  종목명을 지워도 모델이 그래프 형태만 보고 NVDA를 추측할 수 있을 정도로 학습되어 있을 가능성이 있음
이런 모델들의 백테스트 결과는 신뢰하기 어려움
실제 비용을 고려한 실시간 8개월 실험을 해야 의미가 있음
- 우리는 현재 주식과 옵션을 대상으로 라이브 실험을 진행 중임
  rallies.ai/arena
이건 완전히 잘못된 접근임
나는 실제로 LLM을 트레이딩에 활용하는 연구자로 일하고 있음
LLM은 순진하고, 쉽게 설득되며, 비결정적(non-deterministic) 임
같은 실험을 10번 하면 매번 다른 결과가 나올 수 있음
올바른 방법은 먼저 결정론적 트레이딩 알고리즘을 만들고, 그 위에 LLM을 보조 도구로 얹는 것임
LLM을 직접 거래 파이프라인에 넣으면 불필요한 불확실성만 늘어남
감정 분석이나 보조 ML 작업을 빠르게 연결하는 용도로는 가치가 있음
하지만 지금 같은 실험은 도메인 이해 없이 AI를 붙인 전형적인 사례임
진짜 유의미한 연구는 섹터 노출 등 변수를 통제하고 수천 번 반복해 LLM별 편향 패턴을 분석하는 것임
만약 LLM이 스스로 “퀀트 알고리즘을 설계하겠다”고 하고 실제로 성공한다면 그건 놀라운 일일 것임