[GN#226] 임베딩(Embeddings)은 무엇이고 왜 중요한가
LLM의 빠른 성장과 함께 많이 보이는 단어인 임베딩(Embedding) 은 텍스트나 이미지 등의 콘텐츠를 기계가 이해할 수 있도록 숫자 형태인 벡터로 바꾸는 일련의 과정을 의미하는데, 콘텐츠 길이에 상관없이 "항상 같은 크기"의 "부동 소수점 숫자의 배열"로 변환한다는 것이 중요합니다. 이 배열을 가지고 서로 다른 콘텐츠의 코사인(Cosine) 유사성을 계산하면 둘 간의 관련도를 알 수가 있게 되는 것이죠. 이걸로 특정 기사의 관련 기사를 찾거나, 단어에 맞는 그림을 찾거나 하는 등의 기능이 가능해지게 됩니다. 개인용 데이터 웨어하우스 도구인 Datasette의 개발자이고 "LLM에 Stable Diffusion Moment가 오고 있다" 라는 글로 유명한 Simon Willison이 "임베딩(Embeddings)은 무엇이고 왜 중요한가" 라는 글을 통해서 임베딩의 기초부터 실제 적용한 사례를 상세히 설명해서 옮겨봤는데요. 구글 Word2Vec 이나 OpenAI의 CLIP 임베딩 모델까지 잘 설명하고 있으니 천천히 읽어보시기 바랍니다.
ㅤ
생성형 AI를 통해 만들어진 이미지는 이제 다양한 곳에 사용되고 있는데요. 사용한 모델에 따라서 품질 및 스타일이 많이 다르기 때문에 각각에서 테스트하느라 시간이 꽤 오래 걸리게 됩니다. "Midjourney vs. Firefly 2 vs. DALL-E 3" 글은 가장 인기 있는 유료 이미지 생성 서비스 3가지를 한눈에 비교할 수 있게 정리해 놓아서 도움이 많이 됩니다. 가장 사실적인 사진을 위해서는 Midjourney, 일러스트레이션 이나 글자 표현이 중요하다면 DALL-E 3 을 추천하고 있고, 후발주자인 Firefly 2 도 꽤 빠르게 좋아지고 있어서 미래가 기대된다고 합니다. Firefly 2는 Adobe가 자신들이 저작권을 소유한 이미지 만으로 학습했다고 하고, 포토샵 안에서 심리스하게 사용할 수 있으니 충분히 강점이 있을 것 같습니다. 마침 "AI만을 이용해서 Angry Birds 따라 만들기" 글에서는 Midjourney 와 DALL-E 3를 같이 활용해서 게임을 만들기도 했네요.
ㅤ
Vantablack은 탄소 나노튜브를 이용하여 만들어진 "세계에서 가장 어두운 물질"입니다. 보통 검은색의 가시광선 흡수율은 95~98% 인데, 밴타블랙은 99.965% 를 흡수해서 물체에 칠하게 되면 공간에 구멍이 뚫린 것처럼 느껴지게 됩니다. 영국의 Surrey NanoSystems라는 회사가 개발했는데 매우 비싸고 특정 응용 분야에만 공급하고 있어서 개인은 구할 수도 없습니다. 게다가 2016년에 조각가인 Anish Kapoor한테 예술 분야 사용에 대한 독점권을 부여해서 논란이 되었는데요. 젊은 예술가인 Stuart Semple이 물질의 독점에 대해 비난하면서 2017년 Better Black 이라는 색상을 출시합니다. 밴타블랙에 비해 성능은 살짝 떨어지지만 저렴하고 누구나 사용할 수 있도록 공개한건데요. 2020년에 Black 3.0을 출시한 뒤 더욱 개선하여 2023년 10월 31일에 Black 4.0을 공개했습니다. 이번 버전은 저도 흥미가 생겨서 한번 주문해 봤는데, 뭐에 칠하면 좋을지 고민해봐야 겠어요. 추가로 2019년에 MIT가 "Redemption of Vanity" 라는 흡수율 99.995% 의 물질을 개발하면서 밴타블랙은 세상에서 2번째로 어두운 물질이 되었습니다.
ㅤ
✓ Show GN - 직접 만드신 오픈소스나, 재직중인 스타트업의 제품/서비스를 소개해주세요
- 널위한물결 - 다양한 국내 웹사이트를 서핑할 수 있는 서비스
- [Bookleet] 솔직히 책 한 '줄' 읽을 시간은 있잖아요?
- aladin-discord 알라딘 상품 검색 결과를 보여주는 디코봇
✓ Ask GN - 다양한 질문을 올려주세요.
✓ 사내 커뮤니케이션 도구에 GeekNews Bot을 추가해서 멤버들과 함께 새 글을 받아보세요
ㅤ→ Slack봇, 잔디봇, Teams봇, Discord봇, 구글 챗 봇, Swit 봇
✓ 긱뉴스는 RSS로도 구독 가능합니다
✓ 주위분들께 긱뉴스 위클리 - https://news.hada.io/weekly 뉴스레터를 추천해 주세요.
매주 월요일 아침, 지난 일주일간의 GeekNews 중 엄선한 뉴스들을 이메일로 보내드립니다.
- 임베딩(Embeddings)은 무엇이고 왜 중요한가
- Midjourney vs. Firefly 2 vs. DALL-E 3
- AI만을 이용해서 "Angry Birds" 따라 만들기
- Black 4.0 - 가장 검은 블랙 페인트(The Blackest Black)
- AI에서 창업가에게 기회가 있는 5가지 분야
- 액센추어의 Life Trends 2024 [65p PDF]
- State of Brand 보고서 2023
- 우리가 200+개의 오픈소스 Repo를 관리하는 방법
- Docker 이미지 가볍고 안전하게 만들기
- Git 워크플로 향상하는 15가지 팁
- Nile - 최신 SaaS를 위한 Serverless Postgres
- Vercel이 만든 Geist Sans/Mono 폰트
- 'Asahi Linux', 애플 실리콘 포트 프로젝트에서 macOS 버그 헌터로 전환
- YouTube를 활용한 영어 발음 향상
- Distil-Whisper - 6배 빠르고, 49% 작은 버전의 Whisper
- 클로저 컴파일러의 역사, 그리고 타입스크립트가 승리한 이유 [번역]
- ChatGPT는 20B 크기의 모델
- WinterJS - Rust로 작성된 JavaScript Service Worker
- htmx, Rust & Shuttle : Rust 기반의 빠른 프로토타이핑 스택
- 마이크로소프트에서 오픈스트리트맵을 지원하기 위해 15만 달러를 기부
- Android 와 RISC-V: 준비를 위해 알아야할 것들
- 구글 맵 업데이트 - 경로에 대한 Immersive View 및 AI 기능들 추가
- AV1 비디오 코덱이 더 많은 하드웨어 지원을 받게됨
- Open Empathic - AI에 공감과 감성 지능을 탑재하는 것을 목표로 하는 오픈소스
- Convolution 제국의 역습
- Cosmopolitan v3.0 - "Build Once Anywhere, Run Anywhere C/C++"