트랜스포머의 "미스터리"는 각 레이어에서 정적 가중치와 값의 선형 시퀀스 대신, 동일한 입력에서 학습된 가중치의 곱셈을 통해 얻은 3개의 다른 행렬을 사용하고, 이 행렬들을 서로 곱하는 것임. 이는 병렬 처리를 더 많이 가능하게 하지만, 주의(attention) 공식이 정적이기 때문에 매우 제한적임.
계산 그래프를 학습 가능한 매개변수로 일반화할 수 있는 방법이 나오기 전까지는 더 이상의 진전을 보기 어려움.
기존의 기울기 방식으로는 작은 변화가 성능에 큰 변동을 일으키는 혼돈 효과 때문에 전통적인 의미에서 가능한지 확실하지 않음.
아마도 유전 알고리즘 또는 PSO와 같은 형태가 내부적으로 일어나야 할 것임.
더 건조하고 공식적이며 간결한 접근을 원한다면, John Thickstun의 "The Transformer Model in Equations"을 참조하면 됨. 전체 내용이 표준 수학 표기법을 사용하여 단 한 페이지에 들어감.
글을 읽다 보면 질문이 생김.
"Hello"와 "World"에 대응하는 벡터가 무작위로 보이지만 패턴이 있는 것처럼 보임.
벡터에서 2가 중복되는 것이 의미가 있는지, 아니면 전체 세트가 고유한 것인지 궁금함.
트랜스포머가 단순히 "다음 토큰 예측기"로 작동하면서도 훈련 데이터셋에 없는 단어나 서브워드/토큰을 처리할 수 있는 이유에 대한 논문이나 기사를 찾고 싶음.
예를 들어, pandas에서 "sdsfs_ff", "fsdf_value"라는 열을 가진 테이블을 생성하는 경우나 훈련 데이터셋에 없는 예제를 만들고 LLM에 유사한 출력을 요청하는 경우.
위치 임베딩에 대한 토론이 담긴 링크도 있으면 좋겠음. 사인/코사인의 사용과 (곱셈 대 비교)에 대한 만족스러운 답을 얻지 못함.
트랜스포머 튜토리얼은 새로운 모나드 튜토리얼일 수 있음. 이해하기 어려운 개념이지만, 컴퓨터 과학의 많은 부분처럼 이해하기 위해 고군분투하고 예제를 연습해야 함.
일부 단어들을 알고 있음.
TensorFlow를 사용하지 않고 스크래치부터 ANN을 작성한 경험이 있는 사람으로서, 이 설명이 여전히 혼란스러움.
ChatGPT에게 행렬이나 벡터라는 용어를 사용하지 않고 기본 ANN을 수정하여 자기 주의(self-attention)를 구현하는 방법을 설명해달라고 요청했을 때, 정말 간단한 설명을 해줌.
노드, 가중치, 레이어 측면에서 모든 것을 생각하는 것을 선호함. 행렬과 벡터는 ANN에서 무슨 일이 일어나고 있는지를 관련시키기 어렵게 만듦.
ANN을 작성하는 데 익숙한 방식은 각 입력 노드가 스칼라이지만, feed forward 알고리즘이 벡터-행렬 곱셈처럼 보이는데, 이는 모든 입력 노드를 가중치에 곱한 다음 합산하기 때문임.
Quarto 웹사이트가 마음에 듦. 더 많은 파이썬 사용자들이 출판을 위해 Quarto를 사용하는 것을 보임.
디코더의 7단계에서 Z_encoder_decoder = layer_norm(Z_encoder_decoder + Z) 대신 Z_encoder_decoder = layer_norm(Z_encoder_decoder + Z_self_attention)이 되어야 하는지, 그리고 디코더의 8단계에서 layer_norm이 누락되었는지 궁금함.
LLM이 신경망을 사용하는지, 그리고 "뉴런"을 구성하는 것이 무엇인지 궁금함. 즉, 뉴런을 뒷받침하는 코드 구조가 있는지, 아니면 "그저" 복잡한 수학일 뿐인지 의문임.
Hacker News 의견
트랜스포머의 "미스터리"는 각 레이어에서 정적 가중치와 값의 선형 시퀀스 대신, 동일한 입력에서 학습된 가중치의 곱셈을 통해 얻은 3개의 다른 행렬을 사용하고, 이 행렬들을 서로 곱하는 것임. 이는 병렬 처리를 더 많이 가능하게 하지만, 주의(attention) 공식이 정적이기 때문에 매우 제한적임.
더 건조하고 공식적이며 간결한 접근을 원한다면, John Thickstun의 "The Transformer Model in Equations"을 참조하면 됨. 전체 내용이 표준 수학 표기법을 사용하여 단 한 페이지에 들어감.
글을 읽다 보면 질문이 생김.
트랜스포머가 단순히 "다음 토큰 예측기"로 작동하면서도 훈련 데이터셋에 없는 단어나 서브워드/토큰을 처리할 수 있는 이유에 대한 논문이나 기사를 찾고 싶음.
트랜스포머 튜토리얼은 새로운 모나드 튜토리얼일 수 있음. 이해하기 어려운 개념이지만, 컴퓨터 과학의 많은 부분처럼 이해하기 위해 고군분투하고 예제를 연습해야 함.
일부 단어들을 알고 있음.
TensorFlow를 사용하지 않고 스크래치부터 ANN을 작성한 경험이 있는 사람으로서, 이 설명이 여전히 혼란스러움.
Quarto 웹사이트가 마음에 듦. 더 많은 파이썬 사용자들이 출판을 위해 Quarto를 사용하는 것을 보임.
디코더의 7단계에서
Z_encoder_decoder = layer_norm(Z_encoder_decoder + Z)대신Z_encoder_decoder = layer_norm(Z_encoder_decoder + Z_self_attention)이 되어야 하는지, 그리고 디코더의 8단계에서 layer_norm이 누락되었는지 궁금함.LLM이 신경망을 사용하는지, 그리고 "뉴런"을 구성하는 것이 무엇인지 궁금함. 즉, 뉴런을 뒷받침하는 코드 구조가 있는지, 아니면 "그저" 복잡한 수학일 뿐인지 의문임.