전공자로써 우물안 개구리일 수도 있지만 개인적으론 너무 확대해석한거같은 느낌.. 퍼셉트론끼리 연결되어 있으나 MLP층에서 인간의 뉴런처럼 지역적 역할 특성을 띄울수는 없다. 왜냐면 인간의 그것은 활성화에 대한 시간적 특성으로 역할이 결정되는데 지금의 인공신경망은 그런식으로 동작하지않는다.
전공자로써 우물안 개구리일 수도 있지만 개인적으론 너무 확대해석한거같은 느낌.. 퍼셉트론끼리 연결되어 있으나 MLP층에서 인간의 뉴런처럼 지역적 역할 특성을 띄울수는 없다. 왜냐면 인간의 그것은 활성화에 대한 시간적 특성으로 역할이 결정되는데 지금의 인공신경망은 그런식으로 동작하지않는다.
Hacker News 의견
논문을 대충 읽었지만, 이미 고전이 될 것임이 분명함. 공학이 과학으로 변모하고 있으며, 자신의 창조물을 정확히 이해하려고 노력하고 있음이 흥미로움
LLMs에서 패턴 매칭을 넘어서는 더 깊은 내부 구조("생물학")를 주장하는 흥미로운 논문임. 추상화의 예시(언어 비종속적 특징, 예상치 못한 수학 회로 재사용)가 "단순한 다음 토큰 예측" 진영에 대항하여 설득력 있음
읽으면서 많은 하이라이트가 있었음. 특히 인상 깊었던 것은 억제가 거부 작동 방식이라는 발견임
모델이 목표에 도달하는 경로에 대한 추가 연구가 필요함. 아마도 이것과 기사 사이에 많은 중복이 있을 것임. 가장 효율적인 방법이 항상 최선의 방법은 아님
오래된 제어 시스템 이론에서 '시스템 식별'이라는 용어가 떠오름. 시스템을 탐색하고 그 행동을 측정하는 것을 의미했음. 예를 들어 입력 충격을 보내고 그 반응을 측정하는 것, 메모리가 있는지 등을 측정하는 것임
모델이 한 번에 한 단어를 출력하도록 훈련되었다는 것은 강력한 증거임
시의 사례 연구에서 모델이 미리 계획하지 않는다는 것을 보여주려고 했지만, 대신 계획한다는 것을 발견했음
기사를 읽으면서 강력한 LLM이 우리 행성에 추락 착륙했고, Anthropic의 연구자들이 이 흥미로운 외계 기술을 조사하고 그들의 발견을 기록하고 있다고 상상하는 것을 즐겼음. 그것은 블랙박스이며, 아무도 그 비인간적인 두뇌가 어떻게 작동하는지 모르지만, 각 단계마다 점점 더 많이 알아가고 있음
Claude는 여러 단어 앞을 계획하고 그 목적지에 도달하기 위해 글을 씀. 시의 영역에서 이를 보여주었으며, 미리 가능한 운율 단어를 생각하고 다음 줄을 작성하여 그곳에 도달함. 이는 모델이 한 번에 한 단어를 출력하도록 훈련되었음에도 불구하고, 더 긴 수평선에서 생각할 수 있음을 보여주는 강력한 증거임
AI는 건조기 안의 밧줄이 복잡한 매듭에 도달하기 위해 "생각"하는 것처럼 "생각"함. 결국 복잡한 결과로 이어지는 많은 무작위 뒤섞임임