# OpenAI 창업자가 일상과 업무에서 AI를 활용하는 법

> Clean Markdown view of GeekNews topic #19543. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=19543](https://news.hada.io/topic?id=19543)
- GeekNews Markdown: [https://news.hada.io/topic/19543.md](https://news.hada.io/topic/19543.md)
- Type: news
- Author: [spilist2](https://news.hada.io/@spilist2)
- Published: 2025-03-04T02:18:53+09:00
- Updated: 2025-03-04T02:18:53+09:00
- Original source: [stdy.blog](https://www.stdy.blog/how-karpathy-use-llms-korean-summary/)
- Points: 46
- Comments: 3

## Summary

OpenAI 공동 창업자 Andrej Karpathy는 다양한 LLM(대규모 언어 모델)과 그 활용법을 소개하며, 특히 ChatGPT의 작동 원리와 사용 방법에 대해 설명합니다. 그는 복잡한 문제 해결을 위해 'Thinking' 모델을 선택적으로 사용하고, 인터넷 검색 및 딥 리서치 기능을 통해 최신 정보를 얻는 방법을 강조합니다. 또한, 오디오, 이미지, 비디오 등 다양한 모달리티를 활용하여 LLM과의 상호작용을 확장하고, 개인화된 GPTs를 만들어 한국어 학습에 활용하는 등 다양한 AI 도구를 실생활과 업무에 적용하고 있습니다.

## Topic Body

- OpenAI를 공동창업한 Andrej Karpathy의 일반인을 위한 AI 강의 중 2/28에 올라온 [How I use LLMs](https://www.youtube.com/watch?v=EWvNQjAaOHw) 를 캡처와 함께 요약  
- 다양한 시각화 자료와 카파시의 실사용 예제들에 큰 가치가 있기 때문에 글 요약만으로는 영상의 맛이 살아나지 않아 제작함   
  
---  
  
#### 여러 종류의 LLM이 있음  
  
ChatGPT는 가장 유명하고, 가장 기능이 많음. 그 외에는 이런 것들이 유명함  
- 구글의 Gemini  
- Meta의 Meta AI  
- MS의 Copilot  
- Anthropic의 Claude  
- xAI의 Grok  
- Perplexity  
- 중국의 DeepSeek  
- 프랑스 Mistral의 Le Chat  
  
#### ChatGPT는 어떻게 동작하는가  
  
LLM은 인터넷 문서 전체를 1TB로 손실 압축한 zip 파일과 유사. 이 안에 수조 개의 파라미터가 있는 인공신경망이 있고 그게 '다음 글자'를 확률적으로 뱉어냄  
  
이 압축파일은 크게 두 종류 학습을 해서 만듦  
  
사전 학습: 수천만 달러 + 3개월 이상 듦. 비용 많이 드니까 자주 못하고, 그래서 knowldge cutoff가 생김  
  
사후 학습: 훨씬 저비용으로 파인튜닝. 단순히 인터넷 문서를 뱉어주는 게 아니라 사용자의 질문에 답하는 Assistant로서 처럼 동작하게 만듦  
- 모범답안을 알려주는 지도학습(Supervised Fine-Tuning)  
- 생성된 답안에 대한 인간의 선호를 토대로 한 강화학습(Reinforcement Learning from Human Feedback)  
- 인간의 질문에 대한 Assistant의 이상적 답변을 토대로 한 강화학습(Reinforcement Learning on Conversation)  
  
ChatGPT에서 새 세션을 만들어 유저가 메시지를 입력하면 그게 토큰화되어 모델의 인풋으로 들어가고, 그걸 통해 LLM이 다음 토큰을 만듦. 그리고 이 대화(유저의 입력, ChatGPT의 출력)는 모두 Context Window 안에 저장됨.  
  
Context Window는 인간의 작업기억(Working Memory)와 유사하며, 인간과 마찬가지로 한계가 있음. Context Window가 길어질수록 부정확한 정보를 줄 가능성이 조금 더 높아지고, 다음 답변 생성도 조금 더 비싸짐(= 느려짐).   
  
따라서 꼭 필요하지 않다면 한 세션을 오래 유지하는 게 그리 좋은 선택은 아님  
  
#### 언제 'Thinking' 모델을 써야 할까  
  
기존의 사전/사후 학습을 거친 LLM에, 복잡한 STEM(과학, 기술, 공학, 수학) 문제에 대한 답을 긴 사고 과정을 통해 답변할 수 있도록 추가로 강화학습한 모델  
  
여러 토큰을 뱉어내면서 '생각'을 하기 때문에 비용도 시간도 많이 걸리는 대신 복잡한 문제에 대한 답변 정확도가 급격히 올라감  
  
'생각'을 하는 모델이 문제를 꼭 정확히 푸는 것도 아니고, 반대로 '생각'이 없는 모델도 문제를 정확히 풀 수 있음에 주의(카파시가 준 복잡한 디버깅 문제를 모든 생각 모델은 성공했고 ChatGPT-4o는 실패했지만 , Sonnet 3.5, Gemini 2.0 Pro, Grok 3는 Thinking 없이도 성공)  
  
카파시는 일단 답변이 빨리 돌아오는 non-thinking 모델로 테스트해보고, 답변이 의심스러우면 Thinking을 써보는 식으로 사용한다고 함  
  
#### LLM을 돕는 도구들  
  
##### 인터넷 검색  
  
인터넷 검색이 가능한 모델이 있고 아닌 모델이 있음. (꼭 검색이 아니더라도) 우린 항상 이 모델이 뭘 할 수 있는지 알고 써야 함  
  
검색은 가장 기본적으로는 Knowledge Cutoff 때문에 최신 데이터에 대한 답변을 할 수 없기 때문에 필요. 초기 ChatGPT에서 이게 안됐던 걸 Perplexity가 뚫어내서 많은 사용자를 모았음  
  
유저 쿼리에 따라 '이건 검색을 해야 한다'는 판단을 해서, 인터넷 검색한 결과를 토큰화해서 Context Window에 집어넣은 상태로 답변하는 것. (어떨 때는 명시적으로 검색해서 알려달라고 해야 할 수도 있음)   
  
카파시는 요즘 구글링 대신 Perplexity에 묻는 일이 많음. '이런 정보는 Perplexity에 물어봐야지' 하는 습관이 생김  
- 구글링해서 최상위 링크 몇 개 클릭해서 알 수 있을 것 같다 (오늘 주식시장 열리냐, 화이트 로투스 시즌 3 언제 촬영했냐 등)  
- 정보가 계속 바뀌는데 최신화된 정보가 필요하다 (Vercel이 Postgresql 지원하냐, 솔로지옥 시즌 4 출연 배우들 지금은 뭐하냐 등)  
  
##### 딥 리서치  
  
간단히 얘기하면 인터넷 검색 + Thinking임. 길면 몇십분간 검색하고, 그렇게 얻은 정보를 Thinking을 통해 정리해서 리포트를 만들어줌.  
  
ChatGPT 딥리서치의 특징은 더 좋은 리포트를 만들기 위해, 질문자의 의도는 뭐고 어디에 집중할지 물어본 다음 시작한다는 것. 유사 기능으로 Perplexity에도 딥 리서치가 있고, Grok3에도 '딥 서치'가 있음. 각각의 속도와 품질이 다 다름.   
  
인터넷 검색과 마찬가지로 여기서도 답변이 정확하지 않을 수 있음에 주의. 출처를 직접 확인해볼 필요가 있으나, '굉장히 유용한 초안'이긴 함  
  
카파시는 20여개 정도 딥리서치 해봤는데 ChatGPT 답변이 가장 (유의미한 정보로) 길어서 가장 좋았음. 카파시가 던졌던 주제들:  
- 건강기능식품의 특정 성분에 대한 이해  
- 브레이브 브라우저와 아크 브라우저 중 보안과 프라이버시에 더 좋은 쪽이 뭔지  
- 생쥐의 수명을 증가시키는 최신 기술이 뭐지? 어떤 개입 방식들이 시도되었나? 나는 ML 쪽에서 왔는데 평가 지표를 설정하고 높이는 데 익숙함. 생쥐의 수명도 그런 식으로 평가하나?  
- 미국 내의 모든 메이저한 LLM 연구실에 대한 표를 만들어줘. 언제 생겼고, 몇명이 일하고, 펀딩 잘 받았는지.  
  
##### 코드 인터프리터  
  
LLM이 코드를 작성해서 실행한 다음, 코드의 결과물을 컨텍스트에 넣어서 답변해주는 것. 파이썬도 있고 자바스크립트도 있음. 잘 쓰면 아주 강력함. 똘똘한 주니어 하나 마련했다보 보면 됨  
- ChatGPT 4o로 데이터 분석하기  
- Claude로 책 내용 요약한 플래시카드 앱 만들기  
- Claude로 책 내용 시각화하는 Mermaid 다이어그램 만들기  
- Cursor로 틱택토 게임 만들고 채팅만으로 승자 효과 추가하는 개선하기  
  
#### 모달리티  
  
LLM과 텍스트만 주고받는 게 아니라 오디오, 이미지, 비디오도 가능  
  
##### 오디오 입출력  
  
오디오 입력은 카파시는 [SuperWhisper](https://superwhisper.com/), [WisprFlow](https://wisprflow.ai/), [MacWhisper](https://goodsnooze.gumroad.com/l/macwhisper) 등 맥 받아쓰기 앱 활용. 예전같았으면 타이핑했을 것의 대략 절반은 말로 한다고 함.  
  
오디오 출력은 대개 앱 내에서 기능 제공. 화면 받아쓰기 해도 됨  
  
근데 이것들은 여전히 근본적으로는 텍스트로 주고받는 것. Speech-to-Text 후 다시 Text-to-Speech 해야 하니까 느림.   
  
진짜로 오디오만으로 LLM과 주고받는 것도 가능. 오디오 정보를 토큰화하는 것. 이걸 카파시는 True Audio라고 부르고, ChatGPT에서는 Advanced Voice Mode라고 부름.  
- 다양한 억양과 속도로 얘기해보게 하고, 동물 소리 흉내도 시키는 [대화 시연 영상](https://youtu.be/EWvNQjAaOHw?si=m73Mflvf5AS6J-nS&t=5378)  
  
Grok3도 모바일 앱에서 Advanced Voice Mode를 제공함. 섹시 모드, 욕설 모드 등 노빠꾸 모델이 많아서 어떤 면에서는 더 재밌고 흥미롭기도 함  
- 카파시의 Grok3 [대화 시연 영상](https://youtu.be/EWvNQjAaOHw?si=7ZdnN99kb33KMscy&t=5638)  
  
NotebookLM은 파일을 업로드해서 분석하고, 그 내용을 기반으로 여러 진행자가 자연스러운 음성으로 팟캐스트를 진행하게 하는 것도 가능. 사이에 내가 개입해서 질문도 자유롭게 할 수 있음(Interactive Mode).   
- 카파시는 본인의 전문성이 강하지 않지만 호기심은 있는 분야들에 팟캐스트 만들어 듣는 걸 자주 했음. 자기가 그렇게 만든 팟캐스트를 [Histories of Mysteris](https://open.spotify.com/show/3K4LRyMCP44kBbiOziwJjb)라는 이름으로 스포티파이에도 올려둠  
  
##### 이미지 입출력  
  
카파시는 OCR할 때 항상 정확히 읽었는지 확인하고 나서 내용 물어보는 습관이 있음. 언제나 잘못 읽었을 가능성이 있기 때문.  
  
실제 용례: 건강기능식품 영양 성분 확인, 채혈 검과 해석, 수식의 Latex 버전 얻기, 밈 해석하기 등  
  
이미지 출력은 DALLE, IdeoGram 등으로 함. 이미지 생성은 LLM에 내장된 기능은 아니고 별도의 모델에 프롬프트를 넣어서, 출력된 이미지를 다시 가져오는 역할.  
  
##### 비디오 입출력  
  
오디오처럼, Advanced Voice + Video를 입력으로 써서 대답하게 할 수 있음. 모바일 앱에서 가능. LLM이 진짜로 영상을 인풋으로 가져가는 대신 영상을 일정 프레임 별로 가져가서 이미지 입력으로 변환하는 식일 것  
  
카파시 본인은 자주 쓰진 않으나 부모님 세대처럼 기술적 배경이 부족한 사람들도 바로 질문 답변할 수 있으니 좋음  
- [시연 영상](https://youtu.be/EWvNQjAaOHw?si=VrTdxgS9coAiInl7&t=6570)  
  
비디오 출력은 Sora를 비롯한 여러 모델이 있음. 카파시는 현재는 Google Veo 2가 가장 현실적이라고 느낌  
- [9개 영상 모델 비교](https://x.com/HBCoop_/status/1885002792017838233)  
  
#### 추가 기능들  
  
##### 메모리  
- 사용자와 문답하다가 '이건 기억해두면 더 좋은 답변을 하겠다' 싶은 것, 또는 사용자가 명시적으로 기억해달라고 한 건 Memory Updated 라는 문구와 함께 저장됨  
= 이것들은 새 채팅 만들 때마다 Context Window에 들어간다고 보면 됨. 전체 목록 보고 관리하는 것도 가능  
  
##### Customize  
- 사용자를 뭐라고 부르고, 어떤 일 하고, 어떻게 답변하길 원하고... 등을 담아두면 이것 또한 컨텍스트 윈도우에 들어간 채로 답변함  
- 카파시는 요즘 한국어를 배우고 있기 때문에 관련 내용을 넣어두는 실험을 해보고 있음  
  
##### Custom GPTs  
카파시는 한국어 공부를 위한 GPTs를 여러 개 만들어서 활용하고 있음. 간단한 프롬프트에 Few-Shot 사용.  
  
Korean Vocabulary Extractor: 한글 문장을 쪼개서 용어들을 추출해줌  
  
Korean Detailed Translator: 위와 유사한데 단어 바이 단어로 매칭해서 번역해줌  
  
KoreanCap: 이미지 캡처해서 주면 OCR 후 번역하고, 발음까지 포함해서 단어별로 쪼개줌

## Comments



### Comment 35498

- Author: halfenif
- Created: 2025-03-06T10:45:17+09:00
- Points: 1

> '다음 글자'를 확률적으로 뱉어냄  
  
이보다 더 적절한 설명이 있을까 싶습니다.

### Comment 35460

- Author: ned0909
- Created: 2025-03-05T11:55:26+09:00
- Points: 1

한국어 공부하는 건 신기하네요

### Comment 35420

- Author: stadia
- Created: 2025-03-04T13:06:40+09:00
- Points: 1

https://www.youtube.com/watch?si=INt1vwboDPqmU35y&v=TTah-S-d_Uk&feature=youtu.be 자막으로 보세요
