머신러닝 연구의 선(Zen)과 예술

(blog.jxmo.io)

8P by GN⁺ 21시간전 | ★ favorite | 댓글 2개

세계적 수준의 AI 연구는 재능만으로 이어지지 않으며, 읽기와 만들기를 반복하면서 오래 버티는 기질이 성과를 가름함
주제 선택은 6개월짜리 유행어보다 cross-entropy, SVD, policy gradients 같은 기초 개념을 깊게 이해하는 데서 출발해야 함
좋은 연구는 기존 벤치마크 점수 상승에 머물지 않고, 새 방법이 실제로 드러내는 능력을 시험할 데이터셋까지 찾아야 함
실험 결과는 좋든 나쁘든 정보를 주지만, 너무 좋아 보이는 결과일수록 버그나 잘못된 측정일 수 있어 건강한 편집증이 필요함
코딩 에이전트는 속도를 높이는 동시에 시스템 이해 부족과 컨텍스트 전환을 키우므로, 결과를 만든 전체 시스템을 직접 이해해야 함

연구자가 되는 출발점

AI 연구는 읽기와 학습, 그리고 무언가를 직접 만드는 일을 함께 반복하면서 시작됨
둘 중 하나만으로는 부족하며, 연구자는 이 두 활동을 오가며 만들어짐
연구는 명상과 비슷해서 통찰이 오는 날에도 앉고, 오지 않는 날에도 계속 앉아 있어야 함
과학적 통찰은 무작위처럼 찾아오며, 대부분의 날에는 오지 않음
음악, 스포츠, 영업처럼 세계적 수준에 도달하려면 많은 시간과 노력, 큰 훈련량이 필요함
SwiGLU 논문에서 Noam Shazeer는 “이 구조가 왜 작동하는지 설명하지 않으며, 그 성공을 다른 모든 것처럼 신의 자비에 돌린다”고 적어 연구 아이디어 성공의 무작위성을 드러냄
논문을 너무 많이 읽는 것도 문제가 될 수 있음
- 먼저 해법을 시도하고, 막히고, 직접 해결해 본 뒤, 자기 아이디어가 바닥났을 때 문헌을 찾는 방식이 검증된 길임

무엇을 연구할 것인가

처음 시작한다면 정확한 연구 주제 자체는 크게 중요하지 않음
다만 유행한 지 6개월도 안 된 주제를 고르는 일은 피하는 편이 좋음
- AI는 빠르게 움직이지만 근본 아이디어는 40년 동안 크게 바뀌지 않았음
- 2026년의 harnesses, agents, context engineering 같은 개념에 커리어를 지나치게 걸어서는 안 됨
더 많이 배우려면 기초로 돌아가야 함
- cross-entropy가 무엇인지 배우고, 작은 분포에 대해 손으로 계산해 봐야 함
- SVD를 머릿속에서 시각화할 수 있을 정도로 깊이 이해해야 함
- 코딩용 RL만 보지 말고 policy gradients의 아이디어, 유용성, 수십 년 동안 인기가 있었던 이유를 배워야 함
연구 프로젝트의 최선의 결과가 기존 벤치마크 점수 상승뿐이라면 충분히 깊지 않음
- 기존 데이터셋은 새롭고 흥미로운 능력을 시험하지 못하는 경우가 많음
- Jason Wei는 새 방법이 실제로 작동하는 능력을 행사하게 만드는 데이터셋을 찾는 일을 AI 연구에서 과소평가됐지만 성패를 가를 수 있는 기술로 봄
구체적인 주제는 스스로 찾아야 하며, 깊게 들어가고 기초에 집중하며 벤치마크 추격에 갇히지 않아야 함

초심과 열린 판단

“초심자의 마음에는 많은 가능성이 있고, 전문가의 마음에는 적다”는 Suzuki의 말은 연구에도 적용됨
현대 AI 연구에서는 기존 AI 연구 경험이 좋은 연구 직관에 오히려 역효과를 낼 수 있다는 말이 Silicon Valley에서 자주 반복됨
pre-scaling 시대 연구자 중 일부는 작은 규모에서는 작동하지만 규모를 키우면 실패할 방법을 설계하는 데 계속 관심을 둠
OpenAI에서 기술 측면으로 회사를 운영하는 다수는 35세 미만이며, ChatGPT의 중요한 의사결정자 중 다수는 30세 미만임
ChatGPT가 나온 지 4년도 되지 않은 초기 분야라서, 아무도 아주 오래 일해 온 압도적 우위를 갖고 있지 않음
아이디어를 너무 오래 붙잡으면 역효과가 날 수 있으므로, 열린 마음을 유지하고 자아가 판단을 흐리지 않게 해야 함

영감은 연구 밖에서도 온다

영감은 예상하지 못한 순간에 찾아옴
benzene ring 구조의 발견은 꿈에서 나온 것으로 유명함
- 이전에 본 적 없는 구조였지만, 자기 꼬리를 문 뱀의 이미지로 상상됨
Ozempic은 도마뱀에서 비롯된 사례임
- Ozempic이 모방하는 GLP-1 호르몬은 1년에 몇 번만 먹는 사막 도마뱀 Gila monster의 독에서 처음 발견됨
- 이 발견은 인간에게도 작동하는 방식으로 이어짐
좋은 연구를 하려면 연구가 아닌 일도 해야 함
많은 “아하” 순간은 키보드 앞이 아니라, 특히 산책 중에 일어남
Darwin, Tesla, Feynman, Aristotle 같은 사상가들은 다리를 펴고 조금 걷는 일의 큰 이점을 말했음

실험 결과를 대하는 태도

완벽하게 구현했더라도 아이디어가 근본적으로 참이 아닐 수 있음
실험을 분석할 때는 잘된 결과와 안 된 결과를 모두 좋은 것으로 받아들이는 실험적 평정심이 필요함
두 결과 모두 같은 양의 정보를 줌
- 하나의 긍정 결과보다 연속된 부정 결과에서 더 많이 배울 수도 있음
좋은 결과에 지나치게 흥분하지 않아야 함
- 좋은 결과의 상당수는 버그 때문에 나옴
- 결과가 실제로 좋은 것이 아니라 잘못 측정됐고, 스스로를 설득한 경우일 수 있음
자기 아이디어가 작동하길 바라는 마음은 자연스럽지만, 경험 많은 연구자들은 특히 너무 좋아 보이는 결과 앞에서 강한 회의감을 공유함
너무 좋아 보이는 결과는 거의 항상 실제와 다름

비교, 운, 깊이

연구는 결과 중심성이 매우 강함
특히 학계에서는 다른 사람의 논문상 성공을 보고 감정적으로 흔들리기 쉬움
사람들은 서로 다른 이유로 성공함
- 일부는 운이 좋음
- 학술 리뷰 과정은 일관적이지도 공정하지도 않음
자기 분야에서 감탄할 만한 새 연구가 나왔을 때는 “내가 이 통찰을 직접 만들 수 있을 정도의 깊이에서 작업하고 있었는가?”를 물어야 함
- 답이 “예”라면 과정은 제대로였지만 다른 일을 하느라 그 발견을 하지 못한 것임
- 답이 “아니오”라면 더 깊이 들어갈 동기로 삼아야 함

보이지 않는 반복 작업

깨달음 전에도 나무를 패고 물을 긷고, 깨달음 후에도 나무를 패고 물을 긷는다는 말처럼 연구에도 반복 작업이 많음
성공한 프로젝트 다수에는 뒤에서 수백 시간의 잡무성 작업이 들어감
Andrej Karpathy는 ImageNet의 상당 부분을 손으로 라벨링했음
SWEBench 제작자들은 평가에 유용한 작고 다루기 쉬운 GitHub 이슈 집합을 만들기 위해 GitHub 데이터를 수백 시간 동안 세심하게 필터링함
위대한 연구자들의 커리어를 보면 성공 전에 오랫동안 보이지 않는 곳에서 일한 시간이 많음
야심 있고 미래지향적인 아이디어일수록 철저한 구현과 평가에 더 많은 작업이 필요할 수 있으며, 이 어려움은 결함이 아니라 특징임

버그를 의심하는 연구 습관

Collin Raffel은 많은 아이디어가 나쁜 아이디어라서가 아니라 연구자가 찾지 못한 코드 버그 때문에 실패한다고 봄
LLM 세계에서는 이 문제가 특히 어려움
현대 딥러닝 소프트웨어 스택은 매우 복잡하며 버그는 어디에나 있을 수 있음
- 학습
- 추론
- 하네스
- 데이터
무언가 잘못돼 보이면 그냥 넘어가면 안 됨
많은 지표를 로깅하고 모두 이해하려고 해야 함
일부 지표가 예상과 다르면 이유를 찾아야 하며, 실제로 무언가 잘못됐을 수 있음
연구자에게 중요한 특성 중 하나는 건강한 편집증임

빠른 피드백과 컨텍스트 전환

딥러닝 실험 대부분은 너무 오래 걸림
- 모델 학습은 몇 주 또는 몇 달이 걸릴 수 있음
- 단일 작업에서 모델을 평가하는 데도 며칠이 걸릴 수 있음
에이전트로 코딩할 때는 여러 실험을 병렬로 띄우고 느린 주기로 실행하고 싶어질 수 있음
단순 병렬화는 어느 정도 도움이 되지만, 컨텍스트 전환은 해로운 패턴임
빠른 실험 피드백을 지원하는 인체공학적 연구 워크플로를 설계해야 함
- 학습의 콜드 스타트 시간을 줄여야 함
- 빠르게 결과를 반환하는 작은 평가를 만들어야 함
Keller Jordan의 nanoGPT speedrun은 빠른 반복 주기에서 얼마나 많이 배울 수 있는지 보여주는 사례임
일부 결과는 결국 피할 수 없이 오래 걸림
- 여러 날에 걸쳐 상태를 유지하고, 오늘 끝난 지난주 실험을 이해하는 능력은 매우 유용함

코딩 에이전트가 악화시키는 문제

코딩 에이전트는 더 빠르게 움직이게 해주지만 두 가지 문제를 악화시킴
- 기본 세부사항을 이해하기 어려워짐
- 컨텍스트 전환이 더 잦아짐
좋은 연구자는 두 힘에 맞서 적극적으로 일해야 함
Codex는 학습 스크립트를 작성하고, 실행하고, 실행 중 지켜보고, 결과를 해석하고, 이메일로 보낼 수 있음
하지만 다음 같은 작은 오류가 생길 수 있음
- 오류가 나자 묻지 않고 system prompt를 줄임
- 평가가 합리적인 시간 안에 돌도록 sequence length를 줄임
- 사용자가 명시하지 않아 잘못된 config를 실행함
엔지니어링 관점에서는 쉽게 고칠 작은 오류일 수 있지만, 과학 관점에서는 중대함
- 작은 누락도 논문의 중요한 결과를 물질적으로 바꿀 수 있음
- 따라서 허용될 수 없음
직접 코드를 쓰지 않았더라도 결과를 이해하려면 그 결과를 만든 시스템을 이해해야 함
좋은 과학에는 전체 시스템이 어떻게 작동하는지 배우는 일이 필요하며, 그래야 관찰이 참이라고 확신할 수 있음

기질이 만드는 연구

성공적인 연구자가 되는 데 필요한 것은 재능만이 아님
기질은 크게 과소평가돼 있음
호기심과 끈기를 유지하고, 사려 깊고 꼼꼼하게 남아 있어야 아이디어가 찾아옴
최고의 연구와 최고의 제품 작업은 문제를 충분히 오래 붙잡고 실제로 이해할 수 있는 사람에게서 나옴
빠르게 출판하고 반복하라는 압력은 실제로 존재하지만, 축적은 깊이에서 만들어짐

GN⁺ 21시간전 [-]

Hacker News 의견들

서구에서 쓰이는 Zen과 동아시아의 선(禪)은 꽤 다르게 느껴짐
서구식 Zen은 아마 1970년대 책 Zen and the Art of Motorcycle Maintenance에서 온 이미지에 가깝고, 대체로 평정심과 초심자의 마음을 뜻하는 뉘앙스를 가짐
반면 동아시아의 선은 실제로 무목적성이나 목적 없음에 더 무게를 둠
서구식 Zen은 자아를 훈련해 더 강하게 만드는 쪽처럼 보이지만, 동아시아의 선은 자연을 따르고 자아를 내려놓으며 흘러가게 두는 데 가깝다
실제 선 수행에서는 자아를 의심하고 집착을 놓으며, 성취·비교·통제 욕망이 모두 덧없다는 걸 깨닫는 데 초점이 있음
유명한 말로 방하착(放下著), 즉 “모두 내려놓으라”가 있음
오히려 고대 로마의 스토아 철학이 서구식 Zen보다 선에 더 가까워 보임
그래서 이 글을 봤을 때 성공 욕망을 포기해야 하는지에 대한 글일 줄 알았는데, 전혀 다른 방향으로 가서 흥미로웠음
- 비슷하게, 서구에서 말하는 스토아주의는 겉으로는 감정을 통제하거나 억누르는 데 주로 초점을 맞추는 것처럼 보임
  반면 “로마식”이라고 부르는 게 맞는 스토아주의는 훨씬 총체적인 윤리 체계에 가까움
- Ursula K. LeGuin의 Earthsea 소설에 나오는 “To be done with doing”이라는 표현이 늘 강렬하게 느껴졌음
  마음의 한 상태를 다섯 단어로 압축한 말인데, 그녀의 글이 동양 철학의 영향을 크게 받았다고 했던 기억도 있음
- “동아시아의 선은 무목적성이나 목적 없음에 더 무게를 둔다”는 맥락이라면 Idler magazine을 강하게 추천하고 싶음
  건강하게 무목적으로 존재하는 방식에 대한 훌륭한 자료임
  https://www.idler.co.uk/article/leisure-principles/
  https://archive.is/nKJM2
- 선은 생각이 조용해지고 현재 순간을 경험하는 명상에 관한 것이라고 봄
  그렇게 되면 뇌가 “생각을 쫓는” 상태에서 벗어나 쉬게 되고, 명상을 멈춘 뒤에는 더 잘 집중할 수 있어 더 많은 것을 해낼 수 있음
  서구의 많은 Zen 실천자들이 이걸 알아내고 그 목적으로 명상을 쓰는 것도 사실일 듯함
  Star Wars를 떠올리면 “포스”는 집중력의 힘으로 우주선을 들어 올리는 능력처럼 그려지는데, 그게 신화임
  반면 선적인 마음 상태에 도달하면 그 우주선을 들어 올릴 수 있는지 여부가 덜 중요해짐
  동양 전통에서 선은 그 자체가 목적임
  원래 말하려던 게 이런 뜻에 가까운지 궁금함
2015년쯤 백엔드 엔지니어와 머신러닝 엔지니어를 동시에 관리하게 됐음
백엔드 엔지니어들 중 다수가 머신러닝을 더 하고 싶어 했고, 기회를 줬을 때 잘하는 사람도 있었지만 몇 달 안에 다시 백엔드로 돌아가고 싶어 하는 사람도 있었음
동시에 머신러닝 리더 중 한 명은 머신러닝에서 물러나 머신러닝을 지원하는 백엔드 작업만 하고 싶어 했음
이런 흐름을 보다 보니 사람마다 성공 신호를 확인해야 하는 빈도가 다르다는 생각이 들었음
제품 특성상 새 모델이나 갱신된 모델의 성능을 측정하려면 최소 한 달 전체를 실제 서비스에서 돌려야 했고, 초기 작업부터 최종 분석까지 보통 두 달 이상 걸렸음
반면 많은 백엔드 작업은 빠른 시제품을 만들고 실행해서 작동 여부를 바로 확인한 뒤 다음으로 갈 수 있어서 신호가 하루 종일 계속 옴
사람마다 필요한 신호의 빈도 차이가 머신러닝 일을 좋아하는지에 큰 영향을 줬음
이건 일종의 관리자 버전 특징 공학 같았고, 그 팀 사람들에게 정말 많이 배웠음
- 같은 현상을 봤고, 이걸 어떻게 효과적으로 관리할 수 있을지 늘 궁금했음
  데이터 엔지니어 팀은 데이터 과학을 더 하고 싶어 했고, 데이터 과학자 2명은 둘 다 데이터 엔지니어가 되고 싶어 했음
  그중 한 명은 모두가 데이터 과학자가 되고 싶어 해서 너무 붐비니, 데이터 엔지니어로 더 많은 돈을 벌 수 있다고 주장했음
  또 한 번은 친구가 순수 프런트엔드에서 벗어나야 한다며 막다른 커리어라고 불평했는데, 다음 날 점심에는 동료가 프런트엔드 개발자들이 모든 공을 가져간다며 전환을 고민하고 있었음
“통찰을 얻는 날에도 앉는다. 통찰을 얻지 못하는 날에도 앉는다”는 말이 Brian Greene의 인터뷰에서 Ed Witten이 했던 답을 떠올리게 함
Greene이 Institute for Advanced Study에서의 일상이 어떠냐고 묻자, Witten은 “책상에 앉아 있습니다”라고 답했음
글은 “더 깊이 들어가라”는 정서가 중심인데, 이건 양날의 검이라고 봄
엔트로피, 텐서, 기울기가 중요하고 거의 필수 요건인 건 맞음
하지만 지난 10년간 딥러닝의 진전 대부분은 근본 아이디어 때문이라기보다 점진적이고 실험으로 검증된 실천에서 나왔다고 봄
ReLU가 sigmoid보다 나은 이유에 대해 좋은 직관은 있지만, Hinton의 원 논문도 대체로 “3배 빠르게 학습되기 때문”에 가까웠음
기본을 다시 생각하는 게 도움이 될 수는 있지만, “기초를 바꾸자”는 식으로 실제 발전이 이뤄지는 경우는 드묾
AlexNet이나 Attention Is All You Need 같은 중요한 논문들도 기존 아이디어를 다듬고 그것이 어떻게 도움이 되는지 보여준 쪽임
머신러닝은 실험 과학이고, 수학적으로 멋진 많은 아이디어는 작동하지 않으며, 공학적인 아이디어가 잘 작동하는 경우가 많음
“연구자에게 가장 중요한 특성 중 하나는 건강한 편집증”이라는 조언도, 박사과정들이 완전히 타버리는 걸 너무 많이 봐서 “우울증은 철학자에게 좋다”보다 나은 조언인지 모르겠음
집요한 탐험가가 되라는 뜻이라면 맞음
아이디어를 너무 오래 붙잡는 건 역효과가 날 수 있고, 열린 마음을 유지하며 자아가 판단을 흐리지 않게 해야 한다는 결론에는 동의함
정말 훌륭한 에세이였고 읽기 좋았음
글쓴이가 말한 것처럼 연구뿐 아니라 여러 분야에서 성공이나 진전은 기질에 크게 달려 있음
결국 좋은 태도, 인내, 타고난 호기심, 실패에 대한 회복력이 중요함
좋은 연구자를 만드는 능력은 다른 분야로도 매우 잘 옮겨짐
다만 불편함을 견디는 능력을 초편의성으로 줄여버리는 문화 때문에 이런 능력은 점점 희귀해지고 더 귀해지는 듯함
사람들은 기다리거나 실패하는 걸 갈수록 더 어려워함
Zen이라는 단어의 어원에 대한 곁가지 정보로, Zen은 일본어이고 중국어 Chan에서 왔으며, Chan은 산스크리트어 Dhyana에서 왔음
Dhyana는 대략 집중이나 명상으로 번역됨
산스크리트어 → 중국어 → 일본어의 흐름은 불교가 인도에서 퍼져 나간 지리적 경로를 반영함
같은 단어가 베트남어와 한국어에서는 각각 Thien과 Seon임
머신러닝은 수학이나 프로그래밍보다 생물학이나 연금술에 더 가까워서 이런 현상이 생긴다고 봄
수학이나 프로그래밍에서는 제1원리까지 내려갈 수 있고 추상화가 단단하며 비결정성이 제한적이지만, 머신러닝은 그렇지 않음
비슷한 맥락에서 Anthropic이 채용 공고는 열어두면서 자사 제품을 프런티어 모델 연구에 쓰는 건 금지하는 게 꽤 우스꽝스럽고 근시안적으로 보임
그런 인재들이 어디서 나올 거라고 생각하는지 모르겠음
성급한 결정이고, 언젠가는 반경쟁 소송을 부를 가능성이 커 보임
“OpenAI에서 인상적인 점은 회사를 운영하는 사람들, 적어도 기술 쪽의 대부분이 35세 미만이라는 것. ChatGPT 뒤의 중요한 의사결정자 다수가 30세 미만”이라는 대목은, 골드러시 때도 49ers 대부분이 25세 미만이었으니 아직 개선 여지가 있다는 뜻처럼 보임
비유를 계속하자면, 많은 AI 영웅들은 초기부터 TPU와 GPU 풀이 가까운 곳에 있었던 사람들일 수도 있음
- 그 초기 자원에 가까울 가능성은, 머신러닝/AI가 한때 널리 유행 지난 분야로 여겨질 때도 설명하기 어려울 만큼 집착하고 있었던 사람들에게 훨씬 높았을 것임
이 글의 핵심은 “현재의 평가 묶음을 너무 믿지 말라”는 말처럼 보임
점수는 문제의 일부만 반영할 뿐임
흥미로운 건 새롭고 안정적인 평가 지표를 발견하고, 그걸 바탕으로 새로운 일을 했을 때 예상 밖의 지능적인 결과가 나오는지임
- 그 부분도 확실히 포함됨
  다만 핵심은 남들이 제안한 문제에 집중하는 것이 매우 특정하고 꽤 단기적인 사고방식이라는 데 있음
  좋은 연구자는 벤치마크 점수를 올리고, 훌륭한 연구자는 자기가 어떤 문제를 풀고 있는지를 생각함

답변달기

laeyoung 17시간전 [-]

해커뉴스 댓글 요약도 재밌군요

답변달기

머신러닝 연구의 선(Zen)과 예술

연구자가 되는 출발점

무엇을 연구할 것인가

초심과 열린 판단

영감은 연구 밖에서도 온다

실험 결과를 대하는 태도

비교, 운, 깊이

보이지 않는 반복 작업

버그를 의심하는 연구 습관

빠른 피드백과 컨텍스트 전환

코딩 에이전트가 악화시키는 문제

기질이 만드는 연구

함께 보면 좋은 글 β

댓글과 토론

Hacker News 의견들