2P by GN⁺ 6일전 | ★ favorite | 댓글 1개
  • 기존 파운데이션 모델은 텍스트, 이미지, 오디오, 비디오는 다루지만 실세계를 구동하는 시계열 데이터(바이탈, 가격, 원격측정, 로그 등)에 대한 시간적 추론 능력이 부족
  • Time Series Language Models(TSLMs) 는 시계열을 텍스트와 동등한 고유 모달리티로 지원하여, 사용자가 자연어로 질문하고 설명과 권장사항을 받을 수 있음
  • OpenTSLM은 의료 분야의 시계열 데이터와 임상 텍스트를 함께 처리할 수 있도록 설계된 새로운 언어 모델
    • cross-attention 아키텍처를 채택하여 긴 시계열에서도 확장 가능하며, 기존 방식과 달리 대규모 운영이 실용적
    • 두 가지 구조가 제안됨: SoftPrompt(시계열을 토큰으로 삽입)과 Flamingo(교차 주의 기반), 각각 다른 장단점을 가짐
    • 세 가지 새로운 Chain-of-Thought(CoT) 데이터셋(HAR, Sleep, ECG-QA)을 도입해 모델의 추론 성능을 평가함
  • GPT-4o 대비 200배 작은 모델로 수면 단계 분류 4.4배, 활동 인식 6배, ECG 해석 2배 정확도 달성 (효율성은 각각 880배, 1,000배, 400배)
  • 의료 분야 최초로 12-lead ECG 신호와 텍스트를 동시 처리하며, 심장전문의가 검증한 chain-of-thought 추론 제공
  • 가변 길이 다중 시계열을 동시 처리하고 텍스트 맥락과 통합하여 도메인 전문가가 확인한 해석 가능한 설명 생성
  • 본 연구는 의료뿐 아니라 금융, 공급망, 산업 모니터링 등 다양한 시계열 응용 분야로 확장 가능성을 제시함

연구 개요

  • 임상 진단과 치료는 본질적으로 시간에 따른 변화를 이해하는 데 기반함
  • 기존 LLM은 이미지, 텍스트, 음성 등 다양한 모달리티는 처리 가능하지만 연속적인 시계열 데이터 해석 능력은 부족했음
  • 이를 해결하기 위해 OpenTSLM은 시계열 데이터를 LLM의 새로운 네이티브 모달리티로 통합하는 방식을 제안함

모델 아키텍처

  • OpenTSLM-SoftPrompt
    • 시계열을 임베딩 후 텍스트 토큰과 함께 입력
    • 단순하고 파라미터 효율적이지만, 긴 시퀀스에서는 메모리 사용량이 급격히 증가하는 한계 존재
  • OpenTSLM-Flamingo
    • 시계열을 별도 모달리티로 처리하고 교차 주의(cross-attention) 로 텍스트와 결합
    • 긴 시퀀스에서도 메모리 사용이 안정적이며 범용적인 처리에 적합

데이터셋과 학습

  • HAR-CoT: 가속도 센서를 통한 인간 활동 인식
  • Sleep-CoT: EEG 기반 수면 단계 분류
  • ECG-QA-CoT: 심전도 데이터를 활용한 질의응답
  • 단계적 커리큘럼 학습을 적용해 단순 시계열 패턴 학습 → 추론 능력 학습으로 확장

주요 성과

  • SoftPrompt-Llama3.2-1B: Sleep-CoT에서 69.9% F1, HAR-CoT에서 65.4% F1 기록
  • Flamingo-Llama3.2-3B: ECG-QA-CoT에서 40.25% F1로 가장 우수한 성능
  • GPT-4o 대비 성능 우위: 작은 모델(OpenTSLM-1B)조차 GPT-4o보다 높은 F1 점수 기록
  • 의사 평가: ECG-QA 추론 과정의 92.9%가 정확하거나 부분적으로 정확한 해석으로 판정됨

메모리 효율성

  • SoftPrompt는 입력 길이에 따라 VRAM이 기하급수적으로 증가 (예: ECG-QA에서 110GB 이상 필요)
  • Flamingo는 안정적인 메모리 사용을 유지 (Llama-3B에서도 60~70GB 수준)

논의

  • OpenTSLM은 소규모 모델이 초대형 모델을 능가할 수 있음을 보여줌
  • SoftPrompt는 짧은 시계열에 적합, Flamingo는 장기/다중 시계열에 적합
  • 의료 데이터에서 추론 과정의 투명성을 제공, 신뢰 확보에 기여
  • 기존 분류기 기반 접근과 달리 자연어 추론 + 시계열 결합을 실현

한계와 향후 과제

  • 시계열의 스케일·단위를 텍스트로 보존하는 현재 방식은 최적이 아닐 수 있음
  • CoT 데이터셋 생성 과정에서 GPT-4o가 관여했으므로 데이터 편향 가능성 존재
  • 정답 예측을 보장하는 손실 함수 설계, 아키텍처 단순화, 일반화 성능 검증이 필요

결론

  • OpenTSLM은 의료 분야를 넘어 금융, 공급망, 산업 모니터링 등 장기 데이터 처리에도 활용 가능성이 높음
  • 본 연구는 시계열 언어 모델(TSLM) 개념의 기반을 마련하며, 범용 시계열 추론 모델로의 확장을 목표로 함
Hacker News 의견
  • 자연어를 통해 시계열 데이터와 상호작용할 수 있다는 점은 이해함, 하지만 신호 처리나 규칙 기반 알고리즘 라이브러리(혹은 데이터가 변동적이면 머신러닝 사용)를 툴 호출로 활용하는 것과 비교해 어떤 장점이 있을지 궁금함
    예를 들어, 시판 LLM에게 ECG 데이터를 분석하라고 하면 LLM이 ECG 시계열 분석 라이브러리를 호출함
    해당 라이브러리가 데이터 전체를 돌며 통계값과 이벤트를 추출함 - 예: “평균 심박수 60bpm, 특정 시점에서 AFib 감지” 등
    이렇게 하면 LLM이 분석에 필요한 정보를 모두 얻을 수 있고, 연산 비용도 훨씬 적음
    게다가 이런 접근은 대규모 주석 데이터셋과 사전학습된 모델을 요구하는데, 내가 틀렸다면 정정해주길 바라지만 “일반적인” 시계열 데이터 처리가 가능한 범용 모델은 불가능하다고 생각함
    즉, ECG 데이터로 학습된 모델은 주식시장 데이터와 호환되지 않음
    서로 다른 종류의 데이터를 모두 이해하는 하나의 모델은 아직 불가능함

    • 이런 시스템을 엣지에서 구동하는 것은 힘듦
      포인트는 신뢰성 있게 엣지에서 동작하는 것임
      아무도 자신의 심박수 모니터링을 클라우드에 맡기고 싶어하지 않음 - 원격 서비스는 장애와 신뢰성 문제가 크며 LLM 추론과 관련된 추가적인 어려움도 따름
      기존 규칙 기반 탐지 기능은 이미 이런 기기에 탑재돼 있음, 여기에 LLM이 제공하는 고급 패턴 탐지 기능을 결합하면 불필요한 경고를 줄이고 복잡한 새로운 패턴도 탐지할 수 있음

    • 이건 인터넷 대규모 데이터와 대화하듯 인터페이스를 제공하는 것임(ChatGPT)
      그런데 이 방식이 Google 검색으로 상위 링크 클릭하고, 광고 피하고, 쿠키 동의하고, 헤더 읽고, 스크롤해서 결제창 닫고, 나머지 기사 읽고, 이 과정을 4번 반복하는 게 더 효율적인 것과 비교해 뭐가 나은지 잘 모르겠음
      오케이, 알겠음

  • "Stanford Repo Released Sep 31, 2025"라는 문구가 있는데, 2025년 9월 30일 다음 날이 31일로 나오는 확률분포에서 샘플링한 느낌이 남

    • 피드백 고맙다는 말을 전함
      아이러니하게도 이 글은 시간을 이해하는 모델에 대한 내용임을 짚음

    • 이미 날짜 오류가 수정된 것 같음

  • 이번 연구의 근간은 “Flamingo”라는 이름의 시스템임
    이 시스템은 텍스트와 이미지를 번갈아가며 시퀀스 형태로 이해하는 데 특화돼 있음
    즉, 두 가지 순차적 모달리티(형태)를 함께 처리할 수 있음
    이번 새로운 연구는 한 모달리티 채널에 시간 토큰을 삽입해 시간 인식 능력을 강화한 것으로 보임
    (참고로 웹사이트 디자인이 너무 귀여움 - 텍스트에 왼쪽에서 오른쪽으로 그라데이션 효과까지 있음)
    Flamingo 관련 논문 링크

  • 이거 정말 멋짐
    논문을 보니 이 기법이 시계열 데이터 기반 질의응답에 잘 동작하는 것 같음
    의료 AI 분야에서 내가 가장 흥미롭게 생각하는 점은 인간도 감지하지 못하는 질병 신호를 탐지하는 것임
    예를 들면, 심장 전문의도 할 수 없는 ECG로부터 박출률 추정(그런데 알고리즘은 이미 RCT를 통해 검증됨)
    관련 논문 링크
    OpenTSLM이 시계열 데이터를 LLM 임베딩 공간에 토크나이즈하는데, 이 과정이 그런 미묘한 신호를 포착할 수 있을지 궁금함
    아니면 해당 접근법이 이런 활용 사례에 맞게 확장될 수 있을지 질문함

    • OpenTSLM 모델은 바로 이런 미묘한 신호까지 잡아내려고 설계된 모델임
      이게 연구 초기 단계에서 가장 큰 동기였음
      모델에선 원본 시계열 데이터를 크로스 어텐션을 통해 통합하고, 원시 시계열 인코더에서 구체적인 시계열 표현을 학습함
  • 모델이 시계열 처리가 필요하면, TS 라이브러리를 호출하는 스크립트를 생성해서 실행기에 이를 전달하는게 더 나음
    사람도 아마 이렇게 할 것임
    굳이 모델에 해당 기능을 내장할 필요가 있을지 확신이 없음
    모델에 네이티브 TS 처리 기능이 들어가면, 툴 콜링으로 할 수 없는 걸 할 수 있나 궁금함

    • Anthropic도 “모델이 스크립트를 쓰게 하라”는 방식을 Claude Agent SDK 최신 발표에서 권장하고 있음
      코드 생성은 명확하고 재사용 가능성과 조합성이 뛰어나서 복잡한 작업을 신뢰성 있게 수행하기에 이상적임
      에이전트 개발시 어떤 작업이 코드 표현에 적합한지를 고민하면 새로운 가능성이 열림
      Claude Agent SDK 관련 링크

    • 요점을 놓친 것 같음
      이미지 설명을 위해 이미지 분석 라이브러리를 호출할지, 아니면 이미지를 직접 시계열로 이해하고 추론하는 게 나을지 생각해보면 됨
      논문 속 플롯을 보면 이런 모델들이 뭘 할 수 있는지 알 수 있음

    • 근본적으로 “시간 개념”이 진짜 있는지, 인과관계를 이해하는지 궁금함

  • 오늘 집에 가자마자 꼭 써볼 예정임
    나는 많은 양의 오디오 시계열 데이터를 다루는데(단어가 있는 것도 아니고 미묘한 변동도 많음), 이번에 나온 방식이 전통적인 통계기법과 비교해 얼마나 성능이 나오는지 확인해보고 싶음

  • 이들이 huggingface에 창고를 만들어 모델 가중치를 일부 올려놨음
    공식 홈페이지, 논문, Github엔 아직 해당 링크가 보이지 않음
    OpenTSLM huggingface 페이지

  • claude 코드가 내 심박수 시계열을 실시간 모니터링해서 침대에서 뒤척이는 시간까지도 감지해줬으면 좋겠다는 상상

    • 참고로, 며칠 전에 출시된 claude2가 전보다 훨씬 쾌적하게 느껴짐
  • 내 이해가 맞다면 이 모델은 시계열 분류 및 해석에 학습된 것 같은데, 혹시 예측(포캐스팅)에서도 벤치마킹 해봤는지 궁금함
    설명과 추천은 종종 예측과 밀접하게 연결돼 있어서, 이 부분에서도 모델 특성이 나올 것 같음

  • 재밌는 리트머스 테스트로 S&P500 트렌드를 없앤 후 500개 주식별 구성 요소로 분해해서 각 종목이 기여한 정도를 분석, 랭킹 해볼 수 있음
    하지만 이런 작업만으로 Rentec이나 NSA에서 일자리를 얻긴 어려움
    상업·의료 분야에선 대체로 신호가 정상적이고 화이트(비상관) 노이즈와 함께 쓰이며, NSA와 Rentec에서는 주로 비정상(non-stationary) 신호와 함께 체제 변화(regime change), 상관된 노이즈를 다룸
    이런 신호는 정보 손실 없이 디노이즈가 불가함
    이런 분석의 목표는 다음 틱을 예측한다기보다, 가장 빠르게 패턴 변화(체제 변화)를 감지하고 이를 기존 주식 거래 패턴이나 첩보 활동 패턴과 매칭하는 것임