Hacker News 의견
  • 요약하자면, 귀는 푸리에 변환(Fourier Transform) 을 수행하지는 않지만, 웨이블릿(wavelet)가보르(Gabor) 변환 사이 어딘가에 해당하는 시간-국소화 주파수 변환을 수행함
    이는 소리가 시간적으로 국소화되어 있기 때문임
    또 인간의 언어가 주파수–포락선 지속시간 공간에서 비어 있던 영역을 차지하도록 진화했다는 이론도 소개됨
    인간의 달팽이관이 인간의 음성에 최적화되었을 가능성이 있음

    • 이 글은 너무 허수아비 논리를 세워놓은 느낌임
      신호처리를 아는 사람이라면 귀가 무한 시간에 걸친 푸리에 변환을 한다고 주장하지 않음
      귀는 사실상 FFT(고속 푸리에 변환) 과 유사한 처리를 하며, 이는 주파수별 강도를 계산하는 것임
      웨이블릿이나 가보르 변환은 수학적으로는 다르지만 결과적으로 95~99%는 동일한 결과를 냄
      그래서 단순히 설명하자면, 귀는 윈도잉된 이산 푸리에 변환을 수행한다고 보면 됨
    • 높은 주파수에서는 시간 해상도를 높이기 위해 주파수 해상도를 희생하고, 낮은 주파수에서는 그 반대임
      이는 시간-주파수 불확정성 원리로 설명 가능함
      귀의 필터뱅크를 생리학적 결과에 기반한 임의의 필터 집합으로 보는 것이 이해하기 쉬움
      또 동물의 크기도 영향을 미침 — 작은 동물일수록 초음파 영역에서 소리를 내고 들을 수 있음
    • 인간의 달팽이관 특성이 인간의 음성에 맞춰져 있다면, 이를 영화나 TV의 대사 음향 마스터링에 활용해 대사를 더 잘 들리게 할 수도 있을 것 같음
    • 실제로 귀가 푸리에 변환을 하려면 평생 기다려야 하지 않겠냐는 의문이 듦. 실시간으로 소리를 듣는다는 점에서 명백히 그렇지 않음
    • 이 생각을 더 확장하면, 특정 단어와 음소가 주파수–시간 트레이드오프 공간의 특정 영역을 차지할 것임
      예를 들어, ‘호랑이가 덮친다’는 경고음과 ‘아기를 달래는 소리’는 서로 다른 영역에 위치함
  • 제목이 다소 클릭 유도형이고, 내용도 엄밀히는 틀림
    가보르나 웨이블릿 변환은 푸리에 변환의 일반화 형태로, 시간별 스펙트럼 분석을 제공함
    귀는 실제로 매우 푸리에적인(Fourier-y) 일을 하고 있음

    • 클릭 유도형이라는 점에는 동의하지만, 엄밀히 따지면 틀린 건 아님
      푸리에 변환은 무한·연속적이고, DFT는 유한·이산적임
      인간의 청각은 그 중간쯤인 푸리에 급수(Fourier Series) 에 가깝다고 볼 수 있음
      웨이블릿은 또 다른 방식으로, 사인파 대신 변형된 파형을 사용함
      결국 귀는 일상적으로 말하자면 “푸리에적인” 처리를 함
    • 이 글은 대학원생이 Lewicki 2002 논문을 소개한 저널 클럽 글임
      논문 초록에는 “동물 발성에 최적화된 경우 푸리에 변환과 유사하고, 비생물적 환경음에 최적화된 경우 웨이블릿 변환과 유사하다”고 명시되어 있음
  • 더 깊이 알고 싶다면 Richard LyonCARFAC 모델(Cascade of Asymmetric Resonators with Fast-Acting Compression)을 참고할 만함
    인간 청각을 가장 정확히 디지털로 모델링한 연구로 평가됨
    그의 저서 PDF는 여기서 볼 수 있음

    • 훌륭한 자료임. 감사함
  • 인간의 음성이 덜 붐비는 스펙트럼 영역을 차지한다는 논지는 『The Great Animal Orchestra』 책과도 일맥상통함
    책 링크
    다양한 종이 각자 고유한 음향적 틈새(niche) 를 차지하도록 진화했음을 다룸
    하지만 서식지 파괴로 이 현상이 약화되고 있다는 점은 다소 우울함

    • 새들도 자신이 들리기 좋은 시간대를 선택하도록 진화했음
      도시에서는 교통 소음이 생기기 전 이른 시간에, 숲에서는 곤충 소음이 줄어드는 늦은 시간에 울음
    • 자연에서 경쟁력을 주던 진화적 특성이 사라지면, 도시 환경에 맞는 특성이 그 자리를 대체함
      공간적 다양성 대신 시간적 다양성으로 진화할 수도 있음
  • 용어상의 혼동이 있지만, 푸리에 변환은 무한 시간 구간을 전제로 함
    유한 시간 구간에서는 푸리에 급수가 더 정확한 표현임
    실제 귀의 작용은 시간 가중 함수를 적용하는 형태로, 푸리에 급수와 변환의 중간쯤에 위치함
    이 글은 그 점을 잘 짚어냄

    • 결국 귀는 하나의 푸리에 변환이 아니라, 시간–주파수 해상도 간의 트레이드오프를 가진 여러 변환을 수행함
      인간의 음성과 청각 구조가 공진화(co-evolution) 했을 가능성도 있음
    • 제목은 약간 자극적이지만, 인간 청각의 세부 생리학적 구현(예: 달팽이관 섬모의 변환 메커니즘)을 잘 다뤘다는 점에서 흥미로움
  • 귀는 무한한 시간의 푸리에 변환을 수행하지 않음
    대신 이산적이고 윈도잉된 변환을 수행하며, 이는 시간과 주파수 해상도 간의 불확정성 원리와 유사함
    긴 윈도우는 주파수 해상도를 높이고 시간 해상도를 낮추며, 짧은 윈도우는 그 반대임
    인간의 달팽이관은 저주파에서는 형태음(formant) 을 구분하기 위해 주파수 해상도를 높이고, 고주파에서는 파열음(plosive) 을 감지하기 위해 시간 해상도를 높이는 식으로 작동함

    • ‘파울리 배타 원리’가 아니라 하이젠베르크 불확정성 원리를 말한 것 같음
    • 귀는 데이터 샘플을 취하는 것이 아니라 지속적인 기계적 과정으로 작동함
    • “STFT(단시간 푸리에 변환)”을 떠올리면 이해하기 쉬움
  • 기저막(basilar membrane) 은 놀라운 생물학적 구조임
    컴퓨터 오디오 처리에서는 FFT가 유용하지만, 인간의 시간 인식 기반 청각 모델링에는 한계가 있음

  • 이모세포의 팁 링크와 이온 채널을 보여주는 영상이 흥미로움
    관련 영상
    이 구조가 손상되면 이명(tinnitus) 이 발생할 수 있음
    또 귀에는 능동 증폭(active amplification) 기능이 있어, 전기 신호로 세포를 진동시킬 수도 있음

  • 위 영상은 마지막에 매우 높은 음의 톤으로 끝나므로, 헤드폰을 쓰고 있다면 주의가 필요함

  • 두정엽의 청각 연합 피질이 주파수를 구분한다는 점에서, 귀와 뇌 사이에는 시간-주파수 변환이 존재함
    이는 뉴런의 발화가 이산적이므로 유한 시간 내에서 이루어지는 이산 변환
    유한 신호를 무한 신호로 확장하는 단순한 방법은, 그 신호를 과거와 미래로 무한 반복한다고 가정하는 것임