Hacker News 의견
  • 671B 모델을 Q4 양자화로 단일 소켓 Epyc 서버에서 실행하는 비용은 $2K이며, 512GB RAM을 사용함. Q8에서는 듀얼 소켓 Epyc 서버에서 768GB RAM으로 6-8 TPS를 제공하며 $6K의 비용이 듦. RAM 속도가 TPS에 미치는 영향을 궁금해함.

  • 온라인에서 R1의 비용은 $2/MTok이며, 이 장비는 4 tok/s 이상을 수행하여 시간당 $0.04의 비용이 듦. 전력 비용은 시간당 $0.20로 추정됨. 프라이버시를 제외하고는 큰 의미가 없다고 생각함.

  • 현재 AI의 이상한 점은 최고의 모델을 실행하고 싶지만 하드웨어 비용이 비싸다는 것임. 1990년대에는 저렴한 하드웨어로 Linux를 실행할 수 있었음. 최신 AI 모델은 더 많은 RAM이 필요함. 과거에도 이런 일이 있었는지 궁금해함. 컴퓨터 게임이 좋은 예일 수 있음.

  • 작은 모델(33b-70b)로 5-10 tokens/sec를 얻는 것이 더 흥미로울 것이라고 생각함. $3k의 GPU나 $2k의 장비에 돈을 쓰고 싶지 않음.

  • 영어와 스페인어 번역만 하는 작은 모델이나 유닉스 유틸리티와 bash를 이해하는 모델이 의미가 있는지 궁금해함. 훈련 내용을 제한하는 것이 결과 품질이나 모델 크기에 영향을 미치는지 모름.

  • EPYC 9274F와 384GB RAM으로 워크스테이션을 구축했으나, 기대한 성능을 얻지 못함. 다양한 벤치마크 테스트를 수행했으나 Fujitsu 벤치마크의 절반도 안 되는 결과를 얻음.

  • $3000 NVIDIA Digits가 더 자주 언급되지 않는 것이 놀라움. AI에 회의적이었으나, 이제는 DeepSeek을 로컬에서 실행할 계획임.

  • $2K로 구매할 수 있는 것이 놀라움. 저전력 데스크탑을 구축하는 데 대한 제안을 찾고 있음.

  • 유튜버로서 전력 및 RAM 속도에 대한 통계를 공유함. 유휴 전력은 60w, 로드 전력은 260w이며, RAM 속도는 2400임.

  • r6a.16xlarge에서 모델을 실행했으나 첫 프롬프트 이후 모델 로드에 시간이 많이 걸림. 512GB RAM으로 4k 이상의 컨텍스트 크기를 사용할 수 없음. 모델 설정에 익숙하지 않아 놓친 부분이 있을 수 있음.