# 인류의 모든 요리를 2메가바이트로 압축하기

> Clean Markdown view of GeekNews topic #29956. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=29956](https://news.hada.io/topic?id=29956)
- GeekNews Markdown: [https://news.hada.io/topic/29956.md](https://news.hada.io/topic/29956.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2026-05-28T23:01:41+09:00
- Updated: 2026-05-28T23:01:41+09:00
- Original source: [arxiv.org](https://arxiv.org/abs/2605.22391)
- Points: 1
- Comments: 1

## Topic Body

- **Epicure**는 4.14M개 레시피와 FlavorDB 화합물 데이터로 1,790개 표준 재료의 300차원 임베딩을 학습한 모델임
- 기존 FlavorGraph의 **영어 중심 말뭉치**, 고정된 화학·레시피 혼합, 산재된 재료 어휘 문제를 줄이도록 설계됨
- Cooc, Chem, Core는 같은 구조에서 **랜덤워크 스키마**만 바꿔 레시피 공동출현과 화학 신호의 비중을 비교함
- 세 임베딩은 **27개 감각·영양 방향**과 8개 요리 거대 지역을 선형적으로 복구하고, 비지도 방식으로 20개 요인을 얻음
- 최근접 이웃과 **SLERP 방향 산술**로 rice를 South-Asian 방향으로 회전시키는 식의 재료 탐색이 가능하지만, 코드와 산출물은 미공개 상태임

---

### Epicure의 목표
- **재료 임베딩**은 재료 간 궁합, 문화권별 유사 재료, 감각·영양 축에서의 위치를 찾기 위한 기반임
  - 된장에는 미림, 다시, 참기름이 어울리고, 올리브오일에는 바질, 토마토, 프로슈토가 어울리는 식의 지식은 여러 문화권 레시피 말뭉치와 요리사의 직관에 축적돼 있음
  - 메뉴·레시피 보조 도구, 보유 재료 기반 추천, 지중해 재료에서 동아시아권 대응 재료로 이동하는 탐색, 지방감·발효·쓴맛·고단백 같은 축 기반 탐색에 활용 가능함
- 기존 연구는 **화학 기반 풍미 네트워크**와 레시피·지식그래프 기반 접근으로 이어져 왔음
  - Ahn et al. [2011]은 풍미 네트워크를 도입하고, 공유 화합물에서 문화권별 차이가 나타남을 보임
  - Garg et al. [2017]의 FlavorDB는 936개 식품 엔티티의 향 분자를 목록화했고, FooDB는 70,000개 화합물로 화학적 범위를 확장함
  - FlavorGraph [Park et al., 2021]는 FlavorDB와 Recipe1M+를 결합해 6,653개 재료와 1,645개 화합물의 이질 그래프를 만들고 Metapath2Vec으로 학습한 공개 음식 임베딩임
  - FoodKG [Haussmann et al., 2019]는 레시피, 영양, 온톨로지 데이터를 RDF 지식그래프로 통합해 추천을 목표로 함

### FlavorGraph의 한계와 Epicure의 설계
- 이전 분석에서는 FlavorGraph의 300차원 임베딩에서 맛, 질감, 영양, 지리, 문화, 가공을 포함한 **15개 이상 해석 가능한 요리 차원**이 확인됐고, LLM 보강 어휘 통합이 대부분의 신호를 강화한 것으로 나타남
- FlavorGraph의 고정된 사전학습에는 세 가지 제약이 있었음
  - **영어 중심 말뭉치** 하나에 의존함
  - 화학 신호와 레시피 문맥 신호가 하나의 고정된 귀납 편향으로 융합돼 있어 설계 축으로 조절하기 어려움
  - 재료 어휘에 준비 방식 세부사항과 비식품 항목이 섞인 산재된 구조가 남아 있음
- Epicure는 이 제약을 줄이기 위해 처음부터 다시 학습한 **세 가지 형제 skip-gram 재료 임베딩**으로 구성됨
  - 11개 출처에서 4.14M개 레시피를 모음
  - 언어 범위는 영어, 중국어, 러시아어, 베트남어, 스페인어, 튀르키예어, 인도네시아어, 독일어, Indian-English임
  - 원시 재료 문자열을 LLM 보강 파이프라인으로 1,790개 표준 재료 항목으로 정규화함
  - 세 모델은 아키텍처와 하이퍼파라미터를 공유하고, skip-gram 목적함수가 보는 랜덤워크 스키마만 다름

### 데이터와 세 가지 임베딩
- Epicure는 두 종류의 그래프를 출발점으로 삼음
  - **재료-재료 NPMI 그래프**는 203,508개 엣지로 구성됨
  - **FlavorDB 재료-화합물 그래프**는 80,019개 엣지로 구성되며, 15개 범주의 2,247개 타입 지정 화합물 노드를 포함함
- 세 Metapath2Vec 변형은 화학과 레시피 문맥 사이의 스펙트럼에서 서로 다른 위치를 차지함
  - ### Cooc
    - 레시피 **공동출현 그래프**만 걷는 모델임
    - 재료가 실제 레시피에서 함께 나타나는 문맥 신호에 초점을 둠
  - ### Chem
    - 타입 지정 화합물 **메타패스**만 걷는 모델임
    - 재료와 화합물 관계에서 오는 화학적 신호에 초점을 둠
  - ### Core
    - 화합물 기반 경로와 재료-재료 경로를 함께 사용함
    - 제어된 혼합 비율로 재료-재료 walk를 주입해 화학 신호와 레시피 문맥 신호를 섞음
    - 이 구성은 같은 입력 데이터와 학습 구조 안에서 **화학-vs-레시피 문맥** 비중을 설계 축으로 드러냄
    - 세 형제 모델의 차이는 랜덤워크 스키마에서만 발생하도록 설계됨
    - 임베딩의 성질 차이를 입력 데이터가 아니라 walk 스키마의 효과로 비교할 수 있음

### 임베딩 공간에서 복구된 요리 의미
- 세 Epicure 모델은 지도학습 probe에서 **연속 감각·영양 방향 27개**와 **요리 거대 지역 8개**를 선형적으로 복구함
  - 요리권 분리 가능성의 평균 Cohen’s d는 Cooc/Core/Chem 순서로 2.43/2.70/3.07임
  - probe 범위에는 cuisine, food-group, NOVA 가공 등급, USDA 다량영양소, 19개 감각 범주가 포함됨
- 비지도 분석은 각 모델에서 **20개 해석 가능한 요인**을 복구함
  - food-group 잔차화된 임베딩 위에서 다중 seed 안정 FastICA를 적용함
  - 각 요인의 상위 사분위 항목을 GMM으로 분할해 모델별 150–200개의 이름 붙은 요리 모드를 얻음
- GMM 모드의 평균 일관성은 무작위 쌍 기준선보다 높았음
  - Cooc/Core/Chem의 평균 일관성은 0.611/0.833/0.703임
  - 대응되는 무작위 쌍 기준선은 0.097/0.348/0.115임
- 기존 임베딩 연구 관점도 검증에 사용됨
  - Mikolov et al. [2013]의 word2vec 선형 방향성 관점은 27개 지도 요리 probe, 20개 FastICA 요인, SLERP 회전 연산의 기반이 됨
  - Mu et al. [2017]의 등방성 관점에 따라 participation ratio와 평균 pairwise cosine으로 임베딩 등방성을 직접 측정함
  - 세 형제 모델은 등방성 스펙트럼에서 뚜렷하게 다른 위치에 놓이며, 이는 입력 데이터가 아니라 walk 스키마의 속성으로 다뤄짐
  - Caliskan et al. [2017]의 WEAT는 이름 붙은 의미 축이 기하 구조에 반영되는지 진단하는 보조 검증으로 사용됨

### 탐색 연산과 활용 가능성
- Epicure는 같은 **300차원 임베딩 공간**에서 두 가지 보완적 연산 계열을 제공함
  - ### 최근접 이웃 기반 짝짓기
    - top-K 이웃 검색으로 재료 주변의 가까운 항목을 찾음
    - 모드 멤버십 조회로 특정 요리 모드에 속하는 항목을 탐색함
  - ### SLERP 방향 산술
    - seed 재료를 지도학습 pole vector나 emergent factor-mode pole 쪽으로 회전시킴
    - 연속 각도 θ가 seed 지배적 검색과 target 지배적 검색 사이를 보간함
    - 예시로 rice에 South-Asian 방향을 더하면 curry leaf, urad dal, chana dal, fenugreek seed 쪽으로 이동함
    - 지도 의미 방향과 비지도 emergent 모드를 모두 재료 탐색에 사용할 수 있음
    - 셰프 대상 도구가 재료를 회전, 혼합, 검색하면서 감각·영양·문화적으로 일관된 방향을 따라 탐색할 수 있음
    - 화학 기반 관계와 레시피 문맥 기반 관계를 모델 선택과 walk 스키마로 조절할 수 있음
    - **코드와 학습된 산출물**은 현재 공개되지 않았음

## Comments



### Comment 58468

- Author: neo
- Created: 2026-05-28T23:01:42+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=48291225) 
- 연구 자체는 흥미롭지만 제목은 오해를 부름  
  더 나은 제목은 “인간이 쓰는 식재료를 1,800개 원시 요소로 압축” 정도일 것 같음  
  실제 조리법, 즉 준비 방법이나 비율 같은 내용은 거의 없지만, 전 세계적으로 토마토가 소고기와 잘 어울린다는 식의 정보는 맛 조합을 만들 때 꽤 유용하고 흥미로운 자원이 될 수 있음
  - 같이 어울리는 맛의 지도를 다룬 훌륭한 책으로 **The Flavor Bible**이 있음  
    1,800개 식재료의 모든 조합을 담지는 않지만, 널리 쓰이는 허브, 향신료, 채소, 고기를 꽤 잘 다룸. 이 책을 압축해도 텍스트 크기는 그리 크지 않을 것 같음  
    LLM이 만든 레시피의 문제는 **조리 기법의 미묘함**을 놓친다는 점임. 성공 여부가 한 단계나 비율 하나에 달린 경우가 많고, 예를 들어 “프라이드치킨”은 전 세계에 수많은 변형이 있지만 레시피를 평균낸다고 맛있는 프라이드치킨이 나오지는 않음
  - 내가 놓친 게 아니라면 논문 어디에도 이것이 **인류 전체 식재료**를 포괄한다는 근거는 없어 보임  
    11개 데이터 소스가 여러 흔한 요리를 다루지만, 영어와 중국어 소스가 데이터셋의 90%를 차지함. 아프리카와 아랍권도 데이터에 없는데, 이 둘만 해도 세계 인구의 약 25%임  
    비영어 용어를 모두 AI로 영어 번역한 것도 방법론적으로는 이해되지만 오류 여지가 분명히 있음
  - 예전에 12인분 소고기 스튜를 만들다가 **토마토소스**를 넣어서 살린 적이 있음  
    소고기는 잘못 끓이면 질겨지는데, 토마토의 산이 다시 부드럽게 만들어 줌
  - 이 주제에 관심이 있다면 이 논문도 볼 만함: [https://www.nature.com/articles/srep00196](<https://www.nature.com/articles/srep00196>)
  - 토마토에는 **글루탐산**이 많아서 소고기 풍미를 더 강조해 줌

- 흥미로움  
  레시피를 작은 도식으로 압축해 보려는 중임: [https://leontrolski.github.io/recipes.html](<https://leontrolski.github.io/recipes.html>)
  - 마음에 듦. Cooking for Engineers의 표 형식이 조금 떠오름. 레시피 맨 아래로 스크롤하면 볼 수 있음: [https://www.cookingforengineers.com/recipe/19/Erics-Chocolat...](<https://www.cookingforengineers.com/recipe/19/Erics-Chocolate-Pecan-Pie>)
  - 좋음. [https://www.reddit.com/r/flowchartrecipes/](<https://www.reddit.com/r/flowchartrecipes/>)와 [https://www.cookingforengineers.com/recipe/87/Carrot-Pulp-Ca...](<https://www.cookingforengineers.com/recipe/87/Carrot-Pulp-Cake-Part-I>) 페이지의 표 보기 형식이 떠오름
  - 아, **의존성 그래프 레시피 카드**군. 정말 좋음  
    늘 이런 걸 상상해 왔고, 레시피가 재료를 거대한 구분 없는 목록으로 늘어놓은 뒤 “마른 재료를 깊은 볼에 섞으라”고 하는 게 항상 불만이었음  
    한동안 이런 구현을 잘 만들면 수익성이 있겠다고 봤지만, 이제는 강력한 인터페이스가 하나 나오자마자 쉽게 복제될 것 같음
  - 정말 멋진 사이트임. 손으로 그린 그래프가 좋았음  
    표는 **Modernist Cuisine**의 레시피를 떠올리게 함. 거기서는 재료를 절차별로 묶고 무게, 때로는 부피와 비율까지 함께 적음  
    예시: [https://modernistcuisine.com/wp-content/uploads/2013/01/Mac-...](<https://modernistcuisine.com/wp-content/uploads/2013/01/Mac-and-Cheese-recipe-with-steps-1024x635.jpg>)
  - 이 방식이 정말 좋음. 주방에서 일하면서 멀리서도 읽을 수 있는 **큰 도식 기반 레시피북**을 만들면 성공할 수 있을 것 같음

- 참고로 [https://publicdomainrecipes.com](<https://publicdomainrecipes.com>) 전체가 [https://browse.library.kiwix.org](<https://browse.library.kiwix.org>)에서 22MiB 단일 파일로 제공됨: [https://browse.library.kiwix.org/viewer#publicdomainrecipes....](<https://browse.library.kiwix.org/viewer#publicdomainrecipes.com_en_all_2026-05/publicdomainrecipes.com/>)  
  레시피 추가는 [https://github.com/ronaldl29/public-domain-recipes](<https://github.com/ronaldl29/public-domain-recipes>)에서 할 수 있음

- “영어, 중국어, 러시아어, 베트남어, 스페인어, 터키어, 인도네시아어, 독일어, 인도식 영어 등 7개 언어의 11개 소스”라면 **인류 전체 요리**라고 하기는 어려움
  - 그래도 현재 세계 인구의 약 70% 정도는 대표함. 100%는 아니지만 큰 집단 상당수를 포함하긴 함  
    다만 전 세계적으로 매우 인기 있는 **이탈리아, 일본, 그리스, 멕시코 요리**가 빠져 있고, 아프리카와 중동도 전혀 없어 불완전함
  - 맞음. 말뭉치를 보면 레시피의 거의 절반이 **중국/한국** 쪽임  
    논문에서도 빠르게 인정하긴 하지만, 균형 잡힌 데이터셋은 확실히 아님

- [1]에서 이 논문이 설명하는 것의 이전 반복판처럼 보이는 데모를 볼 수 있음  
  데모가 어떤 식재료를 선택했는지 궁금해서, Peter Gilmore[2]의 “Organum: Nature, Texture, Intensity, Purity”에 나오는 낯선 식재료를 몇 가지 시험해 봄. 그는 호주 시드니 Quay 레스토랑으로 알려져 있음  
  주니퍼베리, 마카다미아, 니겔라 씨앗, 오렌지꽃수, 레몬버베나 같은 꽤 모험적인 재료를 알고 있고, 참기름과 볶은 참기름도 구분함. 재료 목록에는 “쌀”, “흑미”, “현미”, “찹쌀”만 있는데도 “쌀”을 고르면 볶음밥에는 익힌 자스민쌀을 식혀 쓰라고 하고, 필라프에는 바스마티쌀을 불리고 헹구라고 할 만큼 똑똑함  
  “양고기”를 고르고 브레이징에 흔히 쓰는 채소를 함께 선택하면 어깨살이나 정강이살 같은 부위를 골라 줌  
  포도씨유, 오르조, 망고스틴, 레몬머틀은 모르고, karkalla처럼 Peter Gilmore 정도나 쓸 법하고 대부분의 셰프는 들어보지도 못했을 재료도 당연히 모름. 하지만 그런 재료는 지역성이 강하거나 특수한 재료라 큰 한계는 아니라고 봄  
  “호박씨”는 알지만 “pumpkin”은 모르고 “squash”로 다루는 식이라, 영국식/미국식 영어 사용을 개선하려면 **지역화**가 더 필요함. “양고기”와 “아보카도”를 조합해 샐러드를 만들길 기대했지만 실패했고, 나중에 보니 재료 목록에 양상추나 루콜라가 없고 미국식 표현인 “salad greens”만 있었음. 다른 샐러드 재료나 닭고기, 혹은 단백질 없이도 시도했지만 샐러드는 만들지 않고, 단백질 덩어리 주변에 토마토 젤(한천)과 아보카도 퓨레를 두른 가짜 고급 요리만 계속 생성함  
  [1] [https://epicure.kaikaku.ai/](<https://epicure.kaikaku.ai/>)  
  [2] [https://en.wikipedia.org/wiki/Peter_Gilmore_(chef)](<https://en.wikipedia.org/wiki/Peter_Gilmore_(chef)>)
  - “pumpkin”이 “squash”라는 건 단순한 단어 차이보다 훨씬 큰 문제임  
    미국인 입장에서는 흔히 쓰는 여러 종류의 squash가 있고, pumpkin은 그중 하나일 뿐임. 떠오르는 건 acorn, butternut, spaghetti이고, 꼼꼼히 따지면 zucchini도 들어감

- X/Twitter에서 봤는데, 인간의 요리와 모든 기법, 식재료, 문화적 맥락별 조리 방식을 **2메가바이트**로 압축할 수 있다고는 믿기 어려움  
  “도구 호출과 코딩을 할 수 있는 1GB 모델”이라고 해서 써 봤더니 거의 작동하지 않는 것과 비슷함. 기술적으로는 1GB 코딩 모델이 맞지만, 좋은 모델은 아닌 셈임
  - 먹을 만한 인간 음식의 공간은 작음. 식재료도 몇천 개, 조리 기법도 몇천 개뿐이라 **고충실도 모델**로 쉽게 압축할 수 있음

- 영어와 독일어는 포함하면서 **이탈리아어와 프랑스어**를 제외한 음식 모델/말뭉치는 신뢰하기 어려움
  - 표에는 이탈리아, 프랑스 등 여러 요리가 나와 있음. 11개 소스 목록은 언어 기준임  
    진짜 프랑스어로 쓰인 레시피는 빠져 있지만, 영어로 된 프렌치 어니언 수프 레시피는 분명 있을 것임

- “[Claude]가 결정론적 디코딩(temperature 0–0.1)으로 모든 식재료 분류를 수행했다”라고 되어 있는데, 이 맥락에서는 큰 문제는 아니지만 **낮은 temperature**가 곧 결정론은 아님
  - 맞음. temperature 0은 **결정론적 추론**의 필요조건도 충분조건도 아님

- 클릭베이트를 제외하면 꽤 흥미로운 개념임. 이런 임베딩으로 식재료나 맛 프로필에 **word2vec 순간**이 올 수 있을지 궁금함  
  다른 사람들이 제대로 짚었듯 더 대표성 있는 데이터 소스로 다시 만들 수 있고, 이 접근의 효과가 어떻게 나올지 기대됨

- Claude Code에 해당 데이터와 정보를 넣어 구현시켜 봤는데 꽤 괜찮아 보임  
  레시피 생성보다는 **대체 재료 추천**에 더 잘 맞을지도 모름: [https://viz.roshangeorge.dev/recipe-model/](<https://viz.roshangeorge.dev/recipe-model/>)
