Hacker News 의견들
  • 메인 링크가 느리면 archive.is 버전을 시도해볼 것을 제안함

  • 나는 종종 LLM을 이용해 기존 연구를 탐색하거나 문제를 다른 방식으로 생각해보는 데 사용함
    결과의 90%는 내 도메인에 맞지 않지만, 나머지 10%는 꽤 유용했음
    하지만 LLM이 추천한 모든 걸 실제로 시도하게 하는 에이전트를 두는 건 비용($$$)이 너무 큼
    추천 목록에는 종종 유지보수가 안 되는 니치 라이브러리가 많음
    반면, 회사의 “전문 컨설턴트”들도 비슷하게 터무니없는 제안을 하곤 해서, 차라리 에이전트가 그들을 대신 상대해줬으면 함

    • 에이전트의 가치는 사용자가 쉬는 동안 자동으로 실험을 반복할 수 있다는 점에 있음
      단, 한 번의 테스트가 빠를 때만 의미가 있음. 내 일에서는 테스트 하나에 반나절이 걸려서 밤새 돌리긴 어려움
    • 어떤 도메인에서 일하는지 궁금함
    • 나는 LLM이 기억하기 귀찮은 짧은 문장이나 틀려도 상관없는 부분에서 유용하다고 느낌
      MCP 서버나 AGENTS.md 같은 걸 세팅하는 사람들을 보면, 결국 LLM이 광고된 대로 작동하지 않는다는 증거 같음
      특정 워크플로우에 맞게 잘 튜닝하면 훌륭하지만, 그게 스케일할 수 있을지는 의문임
      막대한 자금이 훈련과 인프라를 떠받치지 않는다면 지속 가능한 비즈니스 모델이 될 수 있을까?
    • 비용이 문제일 수도 있음. 나는 Claude Code를 가볍게 쓰는데, Max 플랜에서도 토큰이 거의 안 떨어짐
  • “에이전트가 하이퍼파라미터 최적화 알고리즘처럼 행동했다”는 표현이 인상적이었음
    핵심은 program.md라는 시스템 프롬프트 파일 하나로, “train.py 개선 → 학습 실행 → 평가 → 결과 기록”을 반복하는 구조임
    나머지는 임의의 ML 모델일 뿐임

  • 작동 중인 코드를 LLM에 주고 버그 수정, 성능 측정, 테스트 커버리지 평가를 반복하는 방식이 우리 팀의 표준 접근법임
    반복마다 다른 모델을 쓰면 새로운 시각을 얻는 느낌이라 좋았음

    • 이 방식을 특정 언어나 프레임워크에 특화된 로컬 LLM 학습에 적용할 수 있을지 궁금함
  • “Autoresearch”가 왜 이렇게 화제가 됐는지 의문이었음
    AI/ML의 병목은 항상 데이터 품질이나 컴퓨팅 자원이라 생각했는데, 이게 그걸 개선하는지 모르겠음

    • 사실 이런 시도는 예전부터 있었음. AutoML 분야가 그 예인데, 실제로는 잘 안 됐음
      Bayesian 최적화나 Gaussian Process 같은 접근도 있었지만, 결국 랜덤 서치가 더 나았음
      LLM은 문헌을 보고 상식적인 추론을 할 수 있다는 점이 다름
      완벽하진 않지만, 기존 방법보다 나을 가능성은 있음
    • 단순한 하이퍼파라미터 튜닝을 넘어 비파라메트릭 구조 변경도 가능하다는 점이 다름
      완전히 새로운 개념은 아니지만, 덜 brute-force하길 기대하는 듯함
    • “Swarm optimization” 같은 기존 기법도 있지만, LLM은 과거 연구를 학습해 중요한 축에 집중할 수 있다는 점이 다름
      즉, 이미 누군가 한 연구를 LLM이 활용할 수 있음
    • “데이터나 컴퓨트가 병목”이라는 말엔 동의하지 않음
      ML의 핵심은 같은 입력 X로 더 나은 함수 매핑을 찾는 것임
      단순히 컴퓨트를 늘린다고 해결되지 않음
    • 결국 Autoresearch는 생각 자체를 LLM에 위임하는 방식임
  • 결과적으로는 작동했음. LLM이 버그를 찾고 최적화도 수행했음

    • 하지만 실제로는 대부분의 개선이 버그 수정 + Optuna 튜닝 덕분이었음
      이런 건 Claude Code로도 금방 할 수 있음
      Autoresearch의 진짜 가치는 아키텍처 탐색에 있을 듯함
      누가 탐색적 모델링에 써본 경험이 있는지 궁금함
  • 커밋 로그(GitHub 링크)를 보니 대부분이 하이퍼파라미터 튜닝이었음
    그 정도면 토큰 비용($$$)이 아깝다고 느낌

    • Autoresearch에 비용 추정 및 정렬 단계를 추가해 사람이 검토 후 실행하도록 하면 효율적일 듯함
      LoRa 어댑터로 비용 피드백을 주는 식으로 개선 가능함
    • 사실 Optunaskopt 같은 오픈소스 툴로 GPU 없이도 가능함
  • 원 논문에서는 의료 X-ray 데이터를 썼지만, 접근 권한이 없어 Ukiyo-eVG(일본 목판화 11K장)로 대체했다고 함
    이상한 전환처럼 보였음. 무료 의료 이미지 데이터는 Cancer Imaging Archive에도 많음

    • 맞는 말임. 다만 의료 데이터를 에이전트에 맡기기엔 부담스러웠고, 도메인 전이를 실험해보고 싶었음
  • 누군가 이런 실험을 하길 바랐는데, 실제로 해줘서 반가웠음
    “훈련이 끝나길 기다리다 지쳐 대화를 종료했다”는 부분이 웃겼음
    결과 공유에 감사함

    • 고마움, 즐겁게 읽었다는 답변을 남김
  • 이건 자동화된 연구라기보다 구조화된 시행착오에 가까움
    결국 핵심은 평가 지표의 품질임. 그게 약하면 잘못된 방향으로 더 빨리 최적화할 뿐임

    • 좋은 피트니스 함수 설계는 예나 지금이나 어려운 일임
    • 결국 그게 바로 과학적 방법론 아닌가 하는 의견도 있음