LLMs에 "뇌퇴화(brain rot)" 현상 발생 가

▲

GN⁺ 6달전 | parent | ★ favorite | on: LLMs에 "뇌퇴화(brain rot)" 현상 발생 가능성(llm-brain-rot.github.io)

Hacker News 의견

“Brain Rot”라는 용어를 LLM의 데이터 큐레이션 이슈에 빗대는 건 좀 허세적인 느낌임, 오히려 글 쓴 사람 본인이 LLM스러운 사고에 빠진 게 아닌가 하는 생각이 듦
- 진짜 LLM이 쓴 문장 느낌임, 특히 em dash(—)를 두 번이나 써서 내용을 나열함, 이런 스타일은 HN 독자라면 금방 눈치챌 수 있음
- 사실 HR 담당자들도 LLM 등장 전부터 이런 톤을 썼음, OKR 정비하고 있나, 동료들 360도 리뷰 통해 성장하고 있나, 매일 목표 점검하고 매니저랑 1:1 미팅하는 그런 HR스러운 말투임
- 의미만 잘 전달된다면 LLM 도움받아 쓰든 뭐가 문제인지 모르겠음, 앞으로 누가 뭐래도 LLM은 글쓰기 필수 툴로 자리잡을 것임
- LLM 쓸수록 뇌가 퇴화하는 게 느껴짐, 입력 방식 오래 쓰다보면 오토컴플리트에만 의존하다 실제 글 쓸 때 단어를 잊어버리는 느낌임, 결국 중요한 건 LLM에 고품질 데이터를 먹이는 것이란 사실임, 많은 에이전트 스타트업들이 도메인별 고품질 지식과 워크플로우를 대형 모델에 넣으려고 노력 중임
- LLM의 “brain rot”만 연구하고 사람의 brain rot는 등한시하는 게 아쉬움, 인간도 인지 위생에 더 신경썼다면 요즘 소셜미디어도 훨씬 건강해졌을 것임
LLM 훈련 데이터가 궁금하면 Common Crawl 데이터를 무작위로 받아서 직접 살펴보길 추천함 (대략 100MB짜리임)
https://data.commoncrawl.org/crawl-data/CC-MAIN-2025-38/segments/1757047532641.17/wet/CC-MAIN-20250905112101-20250905142101-00000.warc.wet.gz
보다가 여기에선 말하기 곤란한 문제성 데이터도 많았음, 물론 실제로는 사전 정제가 이걸 걸러내겠지? 근데 Llama 같은 일부 base/text 모델은 충격적인 결과를 뱉었던 적도 있어서 아직 정제가 철저한지는 의문임
- Karpathy도 최근에 Common Crawl 샘플이 쓸모없는 잡동사니라고 언급함, 거기서 WSJ 기사 같은 고급 정보는 매우 희귀함, 그걸로 학습하는 게 오히려 기적임
- 주요 AI 업체들은 결국 최신 분류기와 필터로 위험한 데이터를 거른다고 봄, 그래도 완벽하지 않으면 RLHF 같은 방식으로 위험 반응을 제어함, 결국 데이터셋 필터링과 유료 고품질 데이터 소싱이 오픈소스와 차별점이자 작은 진입장벽 역할임
결국 LLM에 쓰레기 데이터를 집어넣고 결과가 나빠졌다고 관찰하는 게 새로운 결과로 느껴지지 않음, 별로 놀랍지도 않음
- 그래도 손상 회복 실험도 했고, 연구적으론 가설을 직접 검증하는 게 중요함, 연구자들한테 이슈의 심각성을 제대로 알리는 것도 논문 발표가 가장 효과적인 방법임
- 무슨 데이터든 대충 학습해도 된다는 소문이 있어서 실제로 검증하는 연구가 필요함
논문에서 언급한 두 가지 큰 문제는
- “생각 건너뛰기(thought-skipping)”가 주요 이슈임: 추론의 중간 과정을 자주 생략함
- “인기 지표(popularity)”가 길이보다 brain rot와 더 밀접한 연관, 즉 인기 트윗이 brain rot 효과의 더 강한 신호임
  이런 현상은 어찌 보면 당연함, 대중문화는 근거 생략하고 결론만 내는 경향이 많음, 트위터 피드 같은 걸 학습하면 그런 식으로 모델이 바뀜, 최소한 소셜미디어 없는 데이터셋과 대비군을 둘 필요성 있음
읽으면서 ‘다들 이미 트레이닝 데이터가 엉망이란 걸 알지만 아무도 크게 신경 쓰지 않는 분위기’라는 생각이 들었음, 엉망 데이터 먹이고 멍청해지면 새삼 놀란 척 하는 게 우습게 느껴짐, 이런 연구 없이도 다 알만한 내용이 아닌가 싶음
brain rot 텍스트는 해로울 수 있지만, brain rot 동영상은 섬뜩하면서도 의미 밀도가 높아 오히려 성능 개선 포인트일 수도 있다고 봄 (독일의 brain rot 분석 영상 참고), Svankmajer같은 예술도 뮤지엄에서 곱씹게 만드는 “proto-brainrot”임
용어상의 혼란도 있다고 봄, 실제로는 콘텐츠가 허접한지, 아니면 의미가 풍부한지의 차이임
- 실제 연구에 따르면 어린이용 brain rot 동영상은 긍정적이지 않음, Cocomelon 등 관련 기사 참고, 충분히 치밀하게 ‘제작’된 콘텐츠는 오히려 brain rot 스펙트럼에서 멀다고 봄
- 이런 점에서, AI가 사람을 조종하는 도구(의도하든 안 하든 아트도 일종의 조종임)로 활용되는 게 기술적 정보 처리보다 훨씬 중요한 리스크임, LLM이 만든 brain rot와 사람의 환심을 사려는 모델 설계가 걱정됨, 점점 인간 같아보이는 anthropomorphization도 무섭긴 함
결국 “garbage in, garbage out”을 신표현으로 바꾼 것 같은데 그냥 clickbait 제목 같음
- 대부분 GIGO(garbage in, garbage out)는 LLM 학습에도 그대로 적용됨
  이 논문에서 특별히 눈여겨볼 점은
  - 사후 보정(post-training)이 부족한 사전학습(pretraining) 품질을 절대 다 만회 못한다는 점, 예를 들어 syntactic 상으론 그럴싸해도 이미 추론 생략 같은 implicit한 나쁜 버릇이 박혀버릴 수 있음
  - “나쁜 데이터”로 무엇을 정의할 것인가도 쉬운 문제가 아님, 사용자 참여(engagement) 기반 휴리스틱이 LLM 콘텐츠 분류보다 오히려 잘 맞는 경우였음
- Attention is all you need임
- 챗GPT가 뇌절 밈이나 "Skibidi Toilet" 같은 인터넷 밈에 잠식되는 상상은 좀 웃김
- 현재 LLM 학습 방법이 좋든 나쁘든 막대한 양의 잡동사니와 좋은 데이터를 섞어 먹이는 현실임, 뻔해보여도 재조명이 시의적절하다고 생각함
- 거기다 추가 과정이 붙은 셈임
“brain rot”, “thought-skipping”, “primary lesion”, “cognitive declines” 등 메타포를 컴퓨터공학 논문에 쓰는 건 적절하지 않다고 생각함, 실제로 비교하면 부정확할 뿐만 아니라, 컴퓨터 모델에 인간적 특성을 투사할 위험이 있음, 연구 분위기가 이 용어에 물들면 오히려 걷어낼 일이 더 번거로워질 수 있음
이 논문을 보며 알파세대 아이들이 미디어 환경에서 자라는 장기적 영향이 궁금해짐
- 왜 아이들한테만 국한해서 생각해야 하나는 생각이 듦