귀는 푸리에 변환을 수행하지 않는다 (2024)

▲

GN⁺ 6달전 | parent | ★ favorite | on: 귀는 푸리에 변환을 수행하지 않는다 (2024)(dissonances.blog)

Hacker News 의견

요약하자면, 귀는 푸리에 변환(Fourier Transform) 을 수행하지는 않지만, 웨이블릿(wavelet) 과 가보르(Gabor) 변환 사이 어딘가에 해당하는 시간-국소화 주파수 변환을 수행함
이는 소리가 시간적으로 국소화되어 있기 때문임
또 인간의 언어가 주파수–포락선 지속시간 공간에서 비어 있던 영역을 차지하도록 진화했다는 이론도 소개됨
인간의 달팽이관이 인간의 음성에 최적화되었을 가능성이 있음
- 이 글은 너무 허수아비 논리를 세워놓은 느낌임
  신호처리를 아는 사람이라면 귀가 무한 시간에 걸친 푸리에 변환을 한다고 주장하지 않음
  귀는 사실상 FFT(고속 푸리에 변환) 과 유사한 처리를 하며, 이는 주파수별 강도를 계산하는 것임
  웨이블릿이나 가보르 변환은 수학적으로는 다르지만 결과적으로 95~99%는 동일한 결과를 냄
  그래서 단순히 설명하자면, 귀는 윈도잉된 이산 푸리에 변환을 수행한다고 보면 됨
- 높은 주파수에서는 시간 해상도를 높이기 위해 주파수 해상도를 희생하고, 낮은 주파수에서는 그 반대임
  이는 시간-주파수 불확정성 원리로 설명 가능함
  귀의 필터뱅크를 생리학적 결과에 기반한 임의의 필터 집합으로 보는 것이 이해하기 쉬움
  또 동물의 크기도 영향을 미침 — 작은 동물일수록 초음파 영역에서 소리를 내고 들을 수 있음
- 인간의 달팽이관 특성이 인간의 음성에 맞춰져 있다면, 이를 영화나 TV의 대사 음향 마스터링에 활용해 대사를 더 잘 들리게 할 수도 있을 것 같음
- 실제로 귀가 푸리에 변환을 하려면 평생 기다려야 하지 않겠냐는 의문이 듦. 실시간으로 소리를 듣는다는 점에서 명백히 그렇지 않음
- 이 생각을 더 확장하면, 특정 단어와 음소가 주파수–시간 트레이드오프 공간의 특정 영역을 차지할 것임
  예를 들어, ‘호랑이가 덮친다’는 경고음과 ‘아기를 달래는 소리’는 서로 다른 영역에 위치함
제목이 다소 클릭 유도형이고, 내용도 엄밀히는 틀림
가보르나 웨이블릿 변환은 푸리에 변환의 일반화 형태로, 시간별 스펙트럼 분석을 제공함
귀는 실제로 매우 푸리에적인(Fourier-y) 일을 하고 있음
- 클릭 유도형이라는 점에는 동의하지만, 엄밀히 따지면 틀린 건 아님
  푸리에 변환은 무한·연속적이고, DFT는 유한·이산적임
  인간의 청각은 그 중간쯤인 푸리에 급수(Fourier Series) 에 가깝다고 볼 수 있음
  웨이블릿은 또 다른 방식으로, 사인파 대신 변형된 파형을 사용함
  결국 귀는 일상적으로 말하자면 “푸리에적인” 처리를 함
- 이 글은 대학원생이 Lewicki 2002 논문을 소개한 저널 클럽 글임
  논문 초록에는 “동물 발성에 최적화된 경우 푸리에 변환과 유사하고, 비생물적 환경음에 최적화된 경우 웨이블릿 변환과 유사하다”고 명시되어 있음
더 깊이 알고 싶다면 Richard Lyon의 CARFAC 모델(Cascade of Asymmetric Resonators with Fast-Acting Compression)을 참고할 만함
인간 청각을 가장 정확히 디지털로 모델링한 연구로 평가됨
그의 저서 PDF는 여기서 볼 수 있음
- 훌륭한 자료임. 감사함
인간의 음성이 덜 붐비는 스펙트럼 영역을 차지한다는 논지는 『The Great Animal Orchestra』 책과도 일맥상통함
책 링크
다양한 종이 각자 고유한 음향적 틈새(niche) 를 차지하도록 진화했음을 다룸
하지만 서식지 파괴로 이 현상이 약화되고 있다는 점은 다소 우울함
- 새들도 자신이 들리기 좋은 시간대를 선택하도록 진화했음
  도시에서는 교통 소음이 생기기 전 이른 시간에, 숲에서는 곤충 소음이 줄어드는 늦은 시간에 울음
- 자연에서 경쟁력을 주던 진화적 특성이 사라지면, 도시 환경에 맞는 특성이 그 자리를 대체함
  공간적 다양성 대신 시간적 다양성으로 진화할 수도 있음
용어상의 혼동이 있지만, 푸리에 변환은 무한 시간 구간을 전제로 함
유한 시간 구간에서는 푸리에 급수가 더 정확한 표현임
실제 귀의 작용은 시간 가중 함수를 적용하는 형태로, 푸리에 급수와 변환의 중간쯤에 위치함
이 글은 그 점을 잘 짚어냄
- 결국 귀는 하나의 푸리에 변환이 아니라, 시간–주파수 해상도 간의 트레이드오프를 가진 여러 변환을 수행함
  인간의 음성과 청각 구조가 공진화(co-evolution) 했을 가능성도 있음
- 제목은 약간 자극적이지만, 인간 청각의 세부 생리학적 구현(예: 달팽이관 섬모의 변환 메커니즘)을 잘 다뤘다는 점에서 흥미로움
귀는 무한한 시간의 푸리에 변환을 수행하지 않음
대신 이산적이고 윈도잉된 변환을 수행하며, 이는 시간과 주파수 해상도 간의 불확정성 원리와 유사함
긴 윈도우는 주파수 해상도를 높이고 시간 해상도를 낮추며, 짧은 윈도우는 그 반대임
인간의 달팽이관은 저주파에서는 형태음(formant) 을 구분하기 위해 주파수 해상도를 높이고, 고주파에서는 파열음(plosive) 을 감지하기 위해 시간 해상도를 높이는 식으로 작동함
- ‘파울리 배타 원리’가 아니라 하이젠베르크 불확정성 원리를 말한 것 같음
- 귀는 데이터 샘플을 취하는 것이 아니라 지속적인 기계적 과정으로 작동함
- “STFT(단시간 푸리에 변환)”을 떠올리면 이해하기 쉬움
기저막(basilar membrane) 은 놀라운 생물학적 구조임
컴퓨터 오디오 처리에서는 FFT가 유용하지만, 인간의 시간 인식 기반 청각 모델링에는 한계가 있음
이모세포의 팁 링크와 이온 채널을 보여주는 영상이 흥미로움
관련 영상
이 구조가 손상되면 이명(tinnitus) 이 발생할 수 있음
또 귀에는 능동 증폭(active amplification) 기능이 있어, 전기 신호로 세포를 진동시킬 수도 있음
위 영상은 마지막에 매우 높은 음의 톤으로 끝나므로, 헤드폰을 쓰고 있다면 주의가 필요함
두정엽의 청각 연합 피질이 주파수를 구분한다는 점에서, 귀와 뇌 사이에는 시간-주파수 변환이 존재함
이는 뉴런의 발화가 이산적이므로 유한 시간 내에서 이루어지는 이산 변환임
유한 신호를 무한 신호로 확장하는 단순한 방법은, 그 신호를 과거와 미래로 무한 반복한다고 가정하는 것임