Hacker News 의견
    • GPT 모델에 대한 질문이 있음: 모델이 가장 가능성이 높은 단어를 선택한다고 생각했지만, "가능성 있는" 단어 중 하나를 선택한다면, 다음 단어 예측 목록이 훨씬 덜 가능성 있게 되지 않을까? "두 단어 함께"의 가능성을 실행하는 것이 계산 가능하다면 더 유익할 것이고, 이는 3, 4, n 단어에도 적용될 수 있음. 이런 방식이 존재하는지 궁금함.
    • 영상을 보고 댓글을 본 후 수정: 이 문제를 제어하는 데는 빔 탐색(beam search)과 온도(temperature)가 사용됨.
    • 집단에게 주의 기제(attention mechanism)를 가르치기에 더 나은 사람은 생각할 수 없음. 꿈이 실현된 것 같음.
    • 4월 만우절 콘텐츠에 대한 놀라운 치유제임. 이것을 직접 주입하고 싶음.
    • Andrej Karpathy의 채널에는 프로그래밍을 아는 사람들을 대상으로 한 신경망과 그 내부 작동에 대해 설명하는 몇 가지 흥미로운 비디오가 있음. 이것을 좋아한다면 추천함.
    • 다음 토큰은 언임베딩 후 최종 열에서 로짓을 샘플링하여 선택됨. 그러나 그것은 단지 마지막 토큰을 다시 선택하는 것이 아닌가? 아니면 어느 단계에서 행렬이 N+1로 크기가 조정되는가?
    • 다음 비디오를 기다릴 수 없음. 이것들이 어떻게 작동하는지 마침내 내면화하고 이해할 수 있을 것 같음.
    • 3B1B는 YouTube에서 최고의 STEM 교육자 중 한 명임.