"You can run 70B LLAMA on dual 4090s/3090s with quantization. Going with dual 3090s you can get a system that can run LLAMA 2 70B with 12K context for < $2K.

I built two such a systems after burning that much in a week on ChatGPT."

https://news.ycombinator.com/item?id=37489601

댓글이 인상적이네요. 뒤에 남긴 댓글 보면, 각기 다른 팀에서 데이터를 다른 포맷으로 관리하는데 ChatGPT로 정규화해서 1주일 만에 데이터 포맷 맞췄다고 하는데. 이렇게 잘 조합하면?!

오옷 좋은 아이디어네요. replicate CEO까지 등장해서 댓글 다는게 인상 깊었어요.
GPT-3.5 (turbo로 추측됨) 비용과 llama 70b의 비용이 비슷할 것이라는 의견이 기억에 남네요.
저는 현업에서 GPT를 쓸 생각이지만 llama + 파인튜닝으로 이점을 취하는 스타트업들이 등장하는게 보여서 가져와봤습니다.