# 귀는 푸리에 변환을 수행하지 않는다 (2024)

> Clean Markdown view of GeekNews topic #24046. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=24046](https://news.hada.io/topic?id=24046)
- GeekNews Markdown: [https://news.hada.io/topic/24046.md](https://news.hada.io/topic/24046.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-10-31T14:33:04+09:00
- Updated: 2025-10-31T14:33:04+09:00
- Original source: [dissonances.blog](https://www.dissonances.blog/p/the-ear-does-not-do-a-fourier-transform)
- Points: 4
- Comments: 1

## Topic Body

- **달팽이관(cochlea)** 은 공기압 변화로 생긴 진동을 받아 **주파수별로 분리하는 물리적 구조**를 통해 소리를 처리함  
- **기저막(basilar membrane)** 의 각 위치는 특정 주파수에 공명하며, 높은 주파수는 단단한 기저부, 낮은 주파수는 유연한 끝부분에서 반응함  
- 이 과정에서 **모세포(hair cell)** 가 진동에 따라 이온 채널을 열고 닫아 전기 신호로 변환, 신경 섬유는 시간·주파수 정보를 필터링함  
- 그러나 이러한 필터는 **푸리에 변환과 달리 시간 해상도를 유지**하며, 실제로는 **웨이블릿(wavelet)** 과 **가보(Gabor)** 사이의 형태로 작동함  
- 이러한 구조는 **자연음의 중복 정보를 줄이는 효율적 부호화(efficient coding)** 전략으로, 인간의 언어가 독특한 시간-주파수 공간을 차지함  

---
### 달팽이관의 주파수 분리 구조
- **고막(tympanic membrane)** 은 공기압 변화에 따라 진동하고, 중이의 뼈들이 이를 증폭해 **달팽이관의 액체**로 전달함  
  - 진동은 **기저막(basilar membrane)** 을 따라 이동하며, 각 위치의 물리적 특성에 따라 특정 주파수에 공명  
  - 기저부는 단단하고 가벼워 **고주파**에, 끝부분은 유연하고 무거워 **저주파**에 반응  
- 기저막의 공명 주파수는 **공간적으로 로그(logarithmic)** 형태로 감소함  
  - 이는 인간의 **피치(pitch) 지각이 로그적**으로 변화하는 특성과 일치함  

### 모세포의 기계-전기 변환
- 기저막 위의 **모세포(hair cell)** 는 해당 위치의 주파수에 맞춰 진동하며, 이 움직임이 **이온 채널 개폐**를 유도함  
  - 모세포 끝의 스프링 구조가 “**trapdoor**”처럼 작동해 진동 주파수에 맞춰 신경전달물질을 방출  
- 이 과정을 통해 **기계적 진동이 전기 신호로 변환**되어 청신경으로 전달됨  

### 청각 필터와 시간-주파수 해상도
- 청신경 섬유는 **시간과 주파수 정보를 추출하는 필터**로 작동  
  - 짧은 시간에 집중된 필터는 **시간 해상도**가 높지만 주파수 분포가 불균일  
  - 긴 시간에 걸친 필터는 **주파수 해상도**가 높지만 시간 정보가 흐림  
- **푸리에 변환(Fourier transform)** 은 시간 정보가 없고, 오른쪽 그림처럼 **균일한 주파수 분포**를 가지지만 이는 실제 귀의 필터와 다름  
- 달팽이관의 필터는 **웨이블릿과 가보 필터의 중간 형태**로,  
  - **고주파 영역**에서는 시간 해상도를 높이고  
  - **저주파 영역**에서는 주파수 해상도를 높이는 **상호 보상 구조**를 가짐  

### 효율적 부호화와 자연음 분석
- **Lewicki(2002)** 연구는 이러한 필터 구조가 **자연음의 중복을 줄이는 전략**임을 제시  
  - 독립성 극대화를 위한 **ICA(Independent Component Analysis)** 를 통해 환경음, 동물 발성, 인간 음성을 비교  
  - 환경음·인간 음성은 **웨이블릿형 필터**, 동물 발성은 **푸리에형 필터**에 가까운 결과  
- 인간의 언어는 **고유한 시간-주파수 공간**을 차지하며,  
  - 일부 연구자는 **언어가 기존 자연음이 차지하지 않은 영역을 채우도록 진화했을 가능성**을 언급  

### 생태적 부호화와 감각 처리
- 감각 체계는 **환경에 적합한 부호화 방식**을 형성하며, 청각도 그 예시로 제시됨  
  - 이러한 **생태적 표현(ecologically-relevant representation)** 은 행동과 환경의 상호작용에 기반  
- 글의 마지막에서는 이후 강의에서 **뉴런 수준의 생물물리학적 계산**으로 초점을 옮길 예정임  
- 전체적으로, 귀는 **푸리에 변환이 아닌 효율적·적응적 필터링 시스템**으로 작동함

## Comments



### Comment 45692

- Author: neo
- Created: 2025-10-31T14:33:05+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=45762259) 
- 요약하자면, 귀는 **푸리에 변환(Fourier Transform)** 을 수행하지는 않지만, **웨이블릿(wavelet)** 과 **가보르(Gabor)** 변환 사이 어딘가에 해당하는 시간-국소화 주파수 변환을 수행함  
  이는 소리가 시간적으로 국소화되어 있기 때문임  
  또 인간의 **언어가 주파수–포락선 지속시간 공간에서 비어 있던 영역을 차지하도록 진화했다는 이론**도 소개됨  
  인간의 달팽이관이 인간의 음성에 최적화되었을 가능성이 있음  
  - 이 글은 너무 **허수아비 논리**를 세워놓은 느낌임  
    신호처리를 아는 사람이라면 귀가 무한 시간에 걸친 푸리에 변환을 한다고 주장하지 않음  
    귀는 사실상 **FFT(고속 푸리에 변환)** 과 유사한 처리를 하며, 이는 주파수별 강도를 계산하는 것임  
    웨이블릿이나 가보르 변환은 수학적으로는 다르지만 결과적으로 95~99%는 동일한 결과를 냄  
    그래서 단순히 설명하자면, 귀는 **윈도잉된 이산 푸리에 변환**을 수행한다고 보면 됨  
  - 높은 주파수에서는 **시간 해상도**를 높이기 위해 주파수 해상도를 희생하고, 낮은 주파수에서는 그 반대임  
    이는 **시간-주파수 불확정성 원리**로 설명 가능함  
    귀의 필터뱅크를 생리학적 결과에 기반한 임의의 필터 집합으로 보는 것이 이해하기 쉬움  
    또 동물의 크기도 영향을 미침 — 작은 동물일수록 초음파 영역에서 소리를 내고 들을 수 있음  
  - 인간의 달팽이관 특성이 인간의 음성에 맞춰져 있다면, 이를 **영화나 TV의 대사 음향 마스터링**에 활용해 대사를 더 잘 들리게 할 수도 있을 것 같음  
  - 실제로 귀가 푸리에 변환을 하려면 평생 기다려야 하지 않겠냐는 의문이 듦. 실시간으로 소리를 듣는다는 점에서 명백히 그렇지 않음  
  - 이 생각을 더 확장하면, 특정 **단어와 음소**가 주파수–시간 트레이드오프 공간의 특정 영역을 차지할 것임  
    예를 들어, ‘호랑이가 덮친다’는 경고음과 ‘아기를 달래는 소리’는 서로 다른 영역에 위치함  

- 제목이 다소 **클릭 유도형**이고, 내용도 엄밀히는 틀림  
  가보르나 웨이블릿 변환은 푸리에 변환의 일반화 형태로, 시간별 스펙트럼 분석을 제공함  
  귀는 실제로 매우 **푸리에적인(Fourier-y)** 일을 하고 있음  
  - 클릭 유도형이라는 점에는 동의하지만, 엄밀히 따지면 틀린 건 아님  
    푸리에 변환은 무한·연속적이고, DFT는 유한·이산적임  
    인간의 청각은 그 중간쯤인 **푸리에 급수(Fourier Series)** 에 가깝다고 볼 수 있음  
    웨이블릿은 또 다른 방식으로, 사인파 대신 **변형된 파형**을 사용함  
    결국 귀는 일상적으로 말하자면 “푸리에적인” 처리를 함  
  - 이 글은 대학원생이 **Lewicki 2002 논문**을 소개한 저널 클럽 글임  
    논문 초록에는 “동물 발성에 최적화된 경우 푸리에 변환과 유사하고, 비생물적 환경음에 최적화된 경우 웨이블릿 변환과 유사하다”고 명시되어 있음  

- 더 깊이 알고 싶다면 **Richard Lyon**의 **CARFAC 모델**(Cascade of Asymmetric Resonators with Fast-Acting Compression)을 참고할 만함  
  인간 청각을 가장 정확히 디지털로 모델링한 연구로 평가됨  
  그의 저서 PDF는 [여기서 볼 수 있음](https://dicklyon.com/hmh/Lyon_Hearing_book_01jan2018_smaller.pdf)  
  - 훌륭한 자료임. 감사함  

- 인간의 음성이 덜 붐비는 스펙트럼 영역을 차지한다는 논지는 **『The Great Animal Orchestra』** 책과도 일맥상통함  
  [책 링크](https://www.amazon.com/Great-Animal-Orchestra-Finding-Origins/dp/0316086878)  
  다양한 종이 각자 고유한 **음향적 틈새(niche)** 를 차지하도록 진화했음을 다룸  
  하지만 서식지 파괴로 이 현상이 약화되고 있다는 점은 다소 우울함  
  - 새들도 자신이 들리기 좋은 시간대를 선택하도록 진화했음  
    도시에서는 교통 소음이 생기기 전 이른 시간에, 숲에서는 곤충 소음이 줄어드는 늦은 시간에 울음  
  - 자연에서 경쟁력을 주던 진화적 특성이 사라지면, 도시 환경에 맞는 특성이 그 자리를 대체함  
    공간적 다양성 대신 **시간적 다양성**으로 진화할 수도 있음  

- 용어상의 혼동이 있지만, **푸리에 변환은 무한 시간 구간**을 전제로 함  
  유한 시간 구간에서는 **푸리에 급수**가 더 정확한 표현임  
  실제 귀의 작용은 시간 가중 함수를 적용하는 형태로, 푸리에 급수와 변환의 중간쯤에 위치함  
  이 글은 그 점을 잘 짚어냄  
  - 결국 귀는 하나의 푸리에 변환이 아니라, **시간–주파수 해상도 간의 트레이드오프**를 가진 여러 변환을 수행함  
    인간의 음성과 청각 구조가 **공진화(co-evolution)** 했을 가능성도 있음  
  - 제목은 약간 자극적이지만, 인간 청각의 세부 생리학적 구현(예: **달팽이관 섬모의 변환 메커니즘**)을 잘 다뤘다는 점에서 흥미로움  

- 귀는 무한한 시간의 푸리에 변환을 수행하지 않음  
  대신 **이산적이고 윈도잉된 변환**을 수행하며, 이는 시간과 주파수 해상도 간의 **불확정성 원리**와 유사함  
  긴 윈도우는 주파수 해상도를 높이고 시간 해상도를 낮추며, 짧은 윈도우는 그 반대임  
  인간의 달팽이관은 저주파에서는 **형태음(formant)** 을 구분하기 위해 주파수 해상도를 높이고, 고주파에서는 **파열음(plosive)** 을 감지하기 위해 시간 해상도를 높이는 식으로 작동함  
  - ‘파울리 배타 원리’가 아니라 **하이젠베르크 불확정성 원리**를 말한 것 같음  
  - 귀는 데이터 샘플을 취하는 것이 아니라 **지속적인 기계적 과정**으로 작동함  
  - “STFT(단시간 푸리에 변환)”을 떠올리면 이해하기 쉬움  

- **기저막(basilar membrane)** 은 놀라운 생물학적 구조임  
  컴퓨터 오디오 처리에서는 FFT가 유용하지만, 인간의 **시간 인식 기반 청각 모델링**에는 한계가 있음  

- **이모세포의 팁 링크와 이온 채널**을 보여주는 영상이 흥미로움  
  [관련 영상](https://youtu.be/pij8a8aNpWQ)  
  이 구조가 손상되면 **이명(tinnitus)** 이 발생할 수 있음  
  또 귀에는 **능동 증폭(active amplification)** 기능이 있어, 전기 신호로 세포를 진동시킬 수도 있음  

- 위 영상은 마지막에 **매우 높은 음의 톤**으로 끝나므로, 헤드폰을 쓰고 있다면 주의가 필요함  

- 두정엽의 청각 연합 피질이 주파수를 구분한다는 점에서, 귀와 뇌 사이에는 **시간-주파수 변환**이 존재함  
  이는 뉴런의 발화가 이산적이므로 유한 시간 내에서 이루어지는 **이산 변환**임  
  유한 신호를 무한 신호로 확장하는 단순한 방법은, 그 신호를 과거와 미래로 무한 반복한다고 가정하는 것임
