나는 종종 LLM을 이용해 기존 연구를 탐색하거나 문제를 다른 방식으로 생각해보는 데 사용함
결과의 90%는 내 도메인에 맞지 않지만, 나머지 10%는 꽤 유용했음
하지만 LLM이 추천한 모든 걸 실제로 시도하게 하는 에이전트를 두는 건 비용($$$)이 너무 큼
추천 목록에는 종종 유지보수가 안 되는 니치 라이브러리가 많음
반면, 회사의 “전문 컨설턴트”들도 비슷하게 터무니없는 제안을 하곤 해서, 차라리 에이전트가 그들을 대신 상대해줬으면 함
에이전트의 가치는 사용자가 쉬는 동안 자동으로 실험을 반복할 수 있다는 점에 있음
단, 한 번의 테스트가 빠를 때만 의미가 있음. 내 일에서는 테스트 하나에 반나절이 걸려서 밤새 돌리긴 어려움
어떤 도메인에서 일하는지 궁금함
나는 LLM이 기억하기 귀찮은 짧은 문장이나 틀려도 상관없는 부분에서 유용하다고 느낌
MCP 서버나 AGENTS.md 같은 걸 세팅하는 사람들을 보면, 결국 LLM이 광고된 대로 작동하지 않는다는 증거 같음
특정 워크플로우에 맞게 잘 튜닝하면 훌륭하지만, 그게 스케일할 수 있을지는 의문임
막대한 자금이 훈련과 인프라를 떠받치지 않는다면 지속 가능한 비즈니스 모델이 될 수 있을까?
비용이 문제일 수도 있음. 나는 Claude Code를 가볍게 쓰는데, Max 플랜에서도 토큰이 거의 안 떨어짐
“에이전트가 하이퍼파라미터 최적화 알고리즘처럼 행동했다”는 표현이 인상적이었음
핵심은 program.md라는 시스템 프롬프트 파일 하나로, “train.py 개선 → 학습 실행 → 평가 → 결과 기록”을 반복하는 구조임
나머지는 임의의 ML 모델일 뿐임
작동 중인 코드를 LLM에 주고 버그 수정, 성능 측정, 테스트 커버리지 평가를 반복하는 방식이 우리 팀의 표준 접근법임
반복마다 다른 모델을 쓰면 새로운 시각을 얻는 느낌이라 좋았음
이 방식을 특정 언어나 프레임워크에 특화된 로컬 LLM 학습에 적용할 수 있을지 궁금함
“Autoresearch”가 왜 이렇게 화제가 됐는지 의문이었음
AI/ML의 병목은 항상 데이터 품질이나 컴퓨팅 자원이라 생각했는데, 이게 그걸 개선하는지 모르겠음
사실 이런 시도는 예전부터 있었음. AutoML 분야가 그 예인데, 실제로는 잘 안 됐음
Bayesian 최적화나 Gaussian Process 같은 접근도 있었지만, 결국 랜덤 서치가 더 나았음
LLM은 문헌을 보고 상식적인 추론을 할 수 있다는 점이 다름
완벽하진 않지만, 기존 방법보다 나을 가능성은 있음
단순한 하이퍼파라미터 튜닝을 넘어 비파라메트릭 구조 변경도 가능하다는 점이 다름
완전히 새로운 개념은 아니지만, 덜 brute-force하길 기대하는 듯함
“Swarm optimization” 같은 기존 기법도 있지만, LLM은 과거 연구를 학습해 중요한 축에 집중할 수 있다는 점이 다름
즉, 이미 누군가 한 연구를 LLM이 활용할 수 있음
“데이터나 컴퓨트가 병목”이라는 말엔 동의하지 않음
ML의 핵심은 같은 입력 X로 더 나은 함수 매핑을 찾는 것임
단순히 컴퓨트를 늘린다고 해결되지 않음
결국 Autoresearch는 생각 자체를 LLM에 위임하는 방식임
결과적으로는 작동했음. LLM이 버그를 찾고 최적화도 수행했음
하지만 실제로는 대부분의 개선이 버그 수정 + Optuna 튜닝 덕분이었음
이런 건 Claude Code로도 금방 할 수 있음
Autoresearch의 진짜 가치는 아키텍처 탐색에 있을 듯함
누가 탐색적 모델링에 써본 경험이 있는지 궁금함
커밋 로그(GitHub 링크)를 보니 대부분이 하이퍼파라미터 튜닝이었음
그 정도면 토큰 비용($$$)이 아깝다고 느낌
Autoresearch에 비용 추정 및 정렬 단계를 추가해 사람이 검토 후 실행하도록 하면 효율적일 듯함
LoRa 어댑터로 비용 피드백을 주는 식으로 개선 가능함
사실 Optuna나 skopt 같은 오픈소스 툴로 GPU 없이도 가능함
원 논문에서는 의료 X-ray 데이터를 썼지만, 접근 권한이 없어 Ukiyo-eVG(일본 목판화 11K장)로 대체했다고 함
이상한 전환처럼 보였음. 무료 의료 이미지 데이터는 Cancer Imaging Archive에도 많음
맞는 말임. 다만 의료 데이터를 에이전트에 맡기기엔 부담스러웠고, 도메인 전이를 실험해보고 싶었음
누군가 이런 실험을 하길 바랐는데, 실제로 해줘서 반가웠음
“훈련이 끝나길 기다리다 지쳐 대화를 종료했다”는 부분이 웃겼음
결과 공유에 감사함
고마움, 즐겁게 읽었다는 답변을 남김
이건 자동화된 연구라기보다 구조화된 시행착오에 가까움
결국 핵심은 평가 지표의 품질임. 그게 약하면 잘못된 방향으로 더 빨리 최적화할 뿐임
Hacker News 의견들
메인 링크가 느리면 archive.is 버전을 시도해볼 것을 제안함
나는 종종 LLM을 이용해 기존 연구를 탐색하거나 문제를 다른 방식으로 생각해보는 데 사용함
결과의 90%는 내 도메인에 맞지 않지만, 나머지 10%는 꽤 유용했음
하지만 LLM이 추천한 모든 걸 실제로 시도하게 하는 에이전트를 두는 건 비용($$$)이 너무 큼
추천 목록에는 종종 유지보수가 안 되는 니치 라이브러리가 많음
반면, 회사의 “전문 컨설턴트”들도 비슷하게 터무니없는 제안을 하곤 해서, 차라리 에이전트가 그들을 대신 상대해줬으면 함
단, 한 번의 테스트가 빠를 때만 의미가 있음. 내 일에서는 테스트 하나에 반나절이 걸려서 밤새 돌리긴 어려움
MCP 서버나 AGENTS.md 같은 걸 세팅하는 사람들을 보면, 결국 LLM이 광고된 대로 작동하지 않는다는 증거 같음
특정 워크플로우에 맞게 잘 튜닝하면 훌륭하지만, 그게 스케일할 수 있을지는 의문임
막대한 자금이 훈련과 인프라를 떠받치지 않는다면 지속 가능한 비즈니스 모델이 될 수 있을까?
“에이전트가 하이퍼파라미터 최적화 알고리즘처럼 행동했다”는 표현이 인상적이었음
핵심은
program.md라는 시스템 프롬프트 파일 하나로, “train.py 개선 → 학습 실행 → 평가 → 결과 기록”을 반복하는 구조임나머지는 임의의 ML 모델일 뿐임
작동 중인 코드를 LLM에 주고 버그 수정, 성능 측정, 테스트 커버리지 평가를 반복하는 방식이 우리 팀의 표준 접근법임
반복마다 다른 모델을 쓰면 새로운 시각을 얻는 느낌이라 좋았음
“Autoresearch”가 왜 이렇게 화제가 됐는지 의문이었음
AI/ML의 병목은 항상 데이터 품질이나 컴퓨팅 자원이라 생각했는데, 이게 그걸 개선하는지 모르겠음
Bayesian 최적화나 Gaussian Process 같은 접근도 있었지만, 결국 랜덤 서치가 더 나았음
LLM은 문헌을 보고 상식적인 추론을 할 수 있다는 점이 다름
완벽하진 않지만, 기존 방법보다 나을 가능성은 있음
완전히 새로운 개념은 아니지만, 덜 brute-force하길 기대하는 듯함
즉, 이미 누군가 한 연구를 LLM이 활용할 수 있음
ML의 핵심은 같은 입력 X로 더 나은 함수 매핑을 찾는 것임
단순히 컴퓨트를 늘린다고 해결되지 않음
결과적으로는 작동했음. LLM이 버그를 찾고 최적화도 수행했음
이런 건 Claude Code로도 금방 할 수 있음
Autoresearch의 진짜 가치는 아키텍처 탐색에 있을 듯함
누가 탐색적 모델링에 써본 경험이 있는지 궁금함
커밋 로그(GitHub 링크)를 보니 대부분이 하이퍼파라미터 튜닝이었음
그 정도면 토큰 비용($$$)이 아깝다고 느낌
LoRa 어댑터로 비용 피드백을 주는 식으로 개선 가능함
원 논문에서는 의료 X-ray 데이터를 썼지만, 접근 권한이 없어 Ukiyo-eVG(일본 목판화 11K장)로 대체했다고 함
이상한 전환처럼 보였음. 무료 의료 이미지 데이터는 Cancer Imaging Archive에도 많음
누군가 이런 실험을 하길 바랐는데, 실제로 해줘서 반가웠음
“훈련이 끝나길 기다리다 지쳐 대화를 종료했다”는 부분이 웃겼음
결과 공유에 감사함
이건 자동화된 연구라기보다 구조화된 시행착오에 가까움
결국 핵심은 평가 지표의 품질임. 그게 약하면 잘못된 방향으로 더 빨리 최적화할 뿐임