GPT-2 기반 3000바이트 C로 구현된 ChatGP

▲

GN⁺ 2024-12-13 | parent | ★ favorite | on: GPT-2 기반 3000바이트 C로 구현된 ChatGPT 클론 (2023)(nicholas.carlini.com)

Hacker News 의견

GPT-2를 사용해 친구와 대화를 시뮬레이션했을 때 재미있고 때로는 놀라울 정도로 정확했음. GPT-2와 GPT-3 사이의 큰 도약은 더 큰 모델, 더 많은 데이터, 또는 둘 다 때문인지 궁금함. RLHF가 큰 차이를 만들지만 기본 GPT-3 모델도 충분한 예시가 주어지면 매우 유용했음
간단한 신경망이 실제로 얼마나 간단한지를 보여주는 좋은 예시임. 인공지능은 우리가 돈을 벌기 위해 사용하는 검은 마법임
코드를 실행해보진 않았지만 작은 크기에 감명받았음. 초기 ELISA 프로그램은 더 컸음. 지난 4년 동안 이것을 바이트 단위로 맞출 수 있게 되었음. 마법이 어디에 있는지 힌트가 있다면 설명해주길 바람. GELU 함수인지 bash 스크립트를 통해 다운로드된 모델인지 궁금함
GPT-2가 내가 좋아하는 동화를 작성했음. 링크: The Princess, the Fairy Godmother, and the Chest
GPT-2가 실제로 채팅에 사용될 수 있도록 조정되었는지 궁금함. 그렇지 않다면 이것을 ChatGPT 클론이라고 부르는 것은 무리라고 생각함
LISP가 항상 C보다 나은 것은 아님. 이번에는 허용됨. 코드 링크를 놓쳤다면 여기 있음: C-Chat-GPT-2
어떤 하드웨어에서 실행될 수 있는지 궁금함. huggingface의 양자화된 가중치를 사용할 수 있는지, 어떤 문제나 쿼리에 특히 잘 맞는지 궁금함
요즘 gptscript를 사용하여 쉽게 자신만의 ChatGPT를 구현할 수 있음. 링크: gptscript
C 매크로가 정규 표현식과 어떻게 비슷한지 이해하지 못하겠음. C 매크로는 단어를 매칭하고 다른 텍스트로 대체함. 정규 표현식은 상대적으로 복잡한 패턴으로 텍스트를 매칭하며, 자체적으로 텍스트 대체를 하지 않음
로컬에서 실행하여 이 GP2가 생성하는 출력이 어떤지 확인한 사람이 있는지 궁금함