▲GN⁺ 2024-02-05 | parent | ★ favorite | on: 자기 주의를 넘어서: 소형 언어 모델이 다음 토큰을 예측하는 방법(shyam.blog)Hacker News 의견 새로운 현상에 대해 놀라지 말 것. 이미 정립된 이론을 읽지 않으면, 자연스럽게 발생하는 현상에 대해 혼란스러울 수 있음. 실험은 철저하게 보이며, 세부 사항에 대한 주의가 인상적임. 기존 이론을 배우는 것과 처음부터 이론을 재발견하는 것 사이의 균형이 중요함. 모델이 훈련 데이터에 기반하여 로그 가능도를 최대화하는 것은 당연한 결과임. 기초를 이해하는 것이 중요하며, 샤넌의 엔트로피 이론 등이 좋은 출발점이 될 수 있음. 구글이 ChatGPT에 같은 단어를 반복하게 하면 훈련 데이터를 그대로 내뱉는다는 점을 지적한 후, 이를 실제로 구현한 사람이 있다는 것에 대해 긍정적인 반응. 이로 인해 추가적인 질문이 제기됨: 'AI 없는 AI' 접근법이 기존의 모델 압축 방식보다 에너지 효율적인가? 이 결과가 OpenAI와 Stability AI에 대한 소송에 증거로 사용될 수 있는가? 주의력(Attention)과 FF(Feed Forward) 네트워크가 같은 방향을 가리키는 현상에 대해 놀람을 표함. FF 네트워크가 임의의 회전을 할 수 있음에도 불구하고, 여러 계층에서 같은 잠재 공간에 있을 것이라고는 예상하지 못함. Andrej Karpathy의 NanoGPT 튜토리얼을 따라 작은 모델을 훈련시켰을 때, 복잡한 러시아어 문법을 어느 정도 이해하는 것으로 보임. 모델은 완벽하지 않지만, 3분의 훈련만으로 복잡한 규칙을 유추할 수 있었음. LLM이 마르코프 체인 텍스트 생성기인지에 대한 질문. 만약 그렇다면, 원본 훈련 데이터를 사용하여 유사한 성능의 마르코프 체인을 구축할 수 있을지에 대한 의문 제기. 연구된 모델은 실제로는 단순한 장난감 모델로, 더 간단한 모델로도 근사화할 수 있음. 그러나 이 모델이 더 큰 LLM의 작동 방식을 대표하지는 않을 수 있음. 저자가 주장하는 바를 정확히 이해하기 어려움. '근사화가 작동하는 이유' 섹션을 여러 번 읽었지만, 단지 트랜스포머의 단계적 설명처럼 느껴짐. LLM 시스템의 3D 시각화가 유익하며, 최대한의 효과를 위해 함께 읽어야 함. 트랜스포머가 실제로 하는 일에 대한 이상한 게시물. 코드를 따라가면 트랜스포머가 무엇을 하는지 정확히 볼 수 있음.
Hacker News 의견
새로운 현상에 대해 놀라지 말 것. 이미 정립된 이론을 읽지 않으면, 자연스럽게 발생하는 현상에 대해 혼란스러울 수 있음.
구글이 ChatGPT에 같은 단어를 반복하게 하면 훈련 데이터를 그대로 내뱉는다는 점을 지적한 후, 이를 실제로 구현한 사람이 있다는 것에 대해 긍정적인 반응.
주의력(Attention)과 FF(Feed Forward) 네트워크가 같은 방향을 가리키는 현상에 대해 놀람을 표함.
Andrej Karpathy의 NanoGPT 튜토리얼을 따라 작은 모델을 훈련시켰을 때, 복잡한 러시아어 문법을 어느 정도 이해하는 것으로 보임.
LLM이 마르코프 체인 텍스트 생성기인지에 대한 질문.
연구된 모델은 실제로는 단순한 장난감 모델로, 더 간단한 모델로도 근사화할 수 있음.
저자가 주장하는 바를 정확히 이해하기 어려움.
LLM 시스템의 3D 시각화가 유익하며, 최대한의 효과를 위해 함께 읽어야 함.
트랜스포머가 실제로 하는 일에 대한 이상한 게시물.