2P by GN⁺ 4일전 | ★ favorite | 댓글 1개
  • 달팽이관(cochlea) 은 공기압 변화로 생긴 진동을 받아 주파수별로 분리하는 물리적 구조를 통해 소리를 처리함
  • 기저막(basilar membrane) 의 각 위치는 특정 주파수에 공명하며, 높은 주파수는 단단한 기저부, 낮은 주파수는 유연한 끝부분에서 반응함
  • 이 과정에서 모세포(hair cell) 가 진동에 따라 이온 채널을 열고 닫아 전기 신호로 변환, 신경 섬유는 시간·주파수 정보를 필터링함
  • 그러나 이러한 필터는 푸리에 변환과 달리 시간 해상도를 유지하며, 실제로는 웨이블릿(wavelet)가보(Gabor) 사이의 형태로 작동함
  • 이러한 구조는 자연음의 중복 정보를 줄이는 효율적 부호화(efficient coding) 전략으로, 인간의 언어가 독특한 시간-주파수 공간을 차지함

달팽이관의 주파수 분리 구조

  • 고막(tympanic membrane) 은 공기압 변화에 따라 진동하고, 중이의 뼈들이 이를 증폭해 달팽이관의 액체로 전달함
    • 진동은 기저막(basilar membrane) 을 따라 이동하며, 각 위치의 물리적 특성에 따라 특정 주파수에 공명
    • 기저부는 단단하고 가벼워 고주파에, 끝부분은 유연하고 무거워 저주파에 반응
  • 기저막의 공명 주파수는 공간적으로 로그(logarithmic) 형태로 감소함
    • 이는 인간의 피치(pitch) 지각이 로그적으로 변화하는 특성과 일치함

모세포의 기계-전기 변환

  • 기저막 위의 모세포(hair cell) 는 해당 위치의 주파수에 맞춰 진동하며, 이 움직임이 이온 채널 개폐를 유도함
    • 모세포 끝의 스프링 구조가 “trapdoor”처럼 작동해 진동 주파수에 맞춰 신경전달물질을 방출
  • 이 과정을 통해 기계적 진동이 전기 신호로 변환되어 청신경으로 전달됨

청각 필터와 시간-주파수 해상도

  • 청신경 섬유는 시간과 주파수 정보를 추출하는 필터로 작동
    • 짧은 시간에 집중된 필터는 시간 해상도가 높지만 주파수 분포가 불균일
    • 긴 시간에 걸친 필터는 주파수 해상도가 높지만 시간 정보가 흐림
  • 푸리에 변환(Fourier transform) 은 시간 정보가 없고, 오른쪽 그림처럼 균일한 주파수 분포를 가지지만 이는 실제 귀의 필터와 다름
  • 달팽이관의 필터는 웨이블릿과 가보 필터의 중간 형태로,
    • 고주파 영역에서는 시간 해상도를 높이고
    • 저주파 영역에서는 주파수 해상도를 높이는 상호 보상 구조를 가짐

효율적 부호화와 자연음 분석

  • Lewicki(2002) 연구는 이러한 필터 구조가 자연음의 중복을 줄이는 전략임을 제시
    • 독립성 극대화를 위한 ICA(Independent Component Analysis) 를 통해 환경음, 동물 발성, 인간 음성을 비교
    • 환경음·인간 음성은 웨이블릿형 필터, 동물 발성은 푸리에형 필터에 가까운 결과
  • 인간의 언어는 고유한 시간-주파수 공간을 차지하며,
    • 일부 연구자는 언어가 기존 자연음이 차지하지 않은 영역을 채우도록 진화했을 가능성을 언급

생태적 부호화와 감각 처리

  • 감각 체계는 환경에 적합한 부호화 방식을 형성하며, 청각도 그 예시로 제시됨
    • 이러한 생태적 표현(ecologically-relevant representation) 은 행동과 환경의 상호작용에 기반
  • 글의 마지막에서는 이후 강의에서 뉴런 수준의 생물물리학적 계산으로 초점을 옮길 예정임
  • 전체적으로, 귀는 푸리에 변환이 아닌 효율적·적응적 필터링 시스템으로 작동함
Hacker News 의견
  • 요약하자면, 귀는 푸리에 변환(Fourier Transform) 을 수행하지는 않지만, 웨이블릿(wavelet)가보르(Gabor) 변환 사이 어딘가에 해당하는 시간-국소화 주파수 변환을 수행함
    이는 소리가 시간적으로 국소화되어 있기 때문임
    또 인간의 언어가 주파수–포락선 지속시간 공간에서 비어 있던 영역을 차지하도록 진화했다는 이론도 소개됨
    인간의 달팽이관이 인간의 음성에 최적화되었을 가능성이 있음

    • 이 글은 너무 허수아비 논리를 세워놓은 느낌임
      신호처리를 아는 사람이라면 귀가 무한 시간에 걸친 푸리에 변환을 한다고 주장하지 않음
      귀는 사실상 FFT(고속 푸리에 변환) 과 유사한 처리를 하며, 이는 주파수별 강도를 계산하는 것임
      웨이블릿이나 가보르 변환은 수학적으로는 다르지만 결과적으로 95~99%는 동일한 결과를 냄
      그래서 단순히 설명하자면, 귀는 윈도잉된 이산 푸리에 변환을 수행한다고 보면 됨
    • 높은 주파수에서는 시간 해상도를 높이기 위해 주파수 해상도를 희생하고, 낮은 주파수에서는 그 반대임
      이는 시간-주파수 불확정성 원리로 설명 가능함
      귀의 필터뱅크를 생리학적 결과에 기반한 임의의 필터 집합으로 보는 것이 이해하기 쉬움
      또 동물의 크기도 영향을 미침 — 작은 동물일수록 초음파 영역에서 소리를 내고 들을 수 있음
    • 인간의 달팽이관 특성이 인간의 음성에 맞춰져 있다면, 이를 영화나 TV의 대사 음향 마스터링에 활용해 대사를 더 잘 들리게 할 수도 있을 것 같음
    • 실제로 귀가 푸리에 변환을 하려면 평생 기다려야 하지 않겠냐는 의문이 듦. 실시간으로 소리를 듣는다는 점에서 명백히 그렇지 않음
    • 이 생각을 더 확장하면, 특정 단어와 음소가 주파수–시간 트레이드오프 공간의 특정 영역을 차지할 것임
      예를 들어, ‘호랑이가 덮친다’는 경고음과 ‘아기를 달래는 소리’는 서로 다른 영역에 위치함
  • 제목이 다소 클릭 유도형이고, 내용도 엄밀히는 틀림
    가보르나 웨이블릿 변환은 푸리에 변환의 일반화 형태로, 시간별 스펙트럼 분석을 제공함
    귀는 실제로 매우 푸리에적인(Fourier-y) 일을 하고 있음

    • 클릭 유도형이라는 점에는 동의하지만, 엄밀히 따지면 틀린 건 아님
      푸리에 변환은 무한·연속적이고, DFT는 유한·이산적임
      인간의 청각은 그 중간쯤인 푸리에 급수(Fourier Series) 에 가깝다고 볼 수 있음
      웨이블릿은 또 다른 방식으로, 사인파 대신 변형된 파형을 사용함
      결국 귀는 일상적으로 말하자면 “푸리에적인” 처리를 함
    • 이 글은 대학원생이 Lewicki 2002 논문을 소개한 저널 클럽 글임
      논문 초록에는 “동물 발성에 최적화된 경우 푸리에 변환과 유사하고, 비생물적 환경음에 최적화된 경우 웨이블릿 변환과 유사하다”고 명시되어 있음
  • 더 깊이 알고 싶다면 Richard LyonCARFAC 모델(Cascade of Asymmetric Resonators with Fast-Acting Compression)을 참고할 만함
    인간 청각을 가장 정확히 디지털로 모델링한 연구로 평가됨
    그의 저서 PDF는 여기서 볼 수 있음

    • 훌륭한 자료임. 감사함
  • 인간의 음성이 덜 붐비는 스펙트럼 영역을 차지한다는 논지는 『The Great Animal Orchestra』 책과도 일맥상통함
    책 링크
    다양한 종이 각자 고유한 음향적 틈새(niche) 를 차지하도록 진화했음을 다룸
    하지만 서식지 파괴로 이 현상이 약화되고 있다는 점은 다소 우울함

    • 새들도 자신이 들리기 좋은 시간대를 선택하도록 진화했음
      도시에서는 교통 소음이 생기기 전 이른 시간에, 숲에서는 곤충 소음이 줄어드는 늦은 시간에 울음
    • 자연에서 경쟁력을 주던 진화적 특성이 사라지면, 도시 환경에 맞는 특성이 그 자리를 대체함
      공간적 다양성 대신 시간적 다양성으로 진화할 수도 있음
  • 용어상의 혼동이 있지만, 푸리에 변환은 무한 시간 구간을 전제로 함
    유한 시간 구간에서는 푸리에 급수가 더 정확한 표현임
    실제 귀의 작용은 시간 가중 함수를 적용하는 형태로, 푸리에 급수와 변환의 중간쯤에 위치함
    이 글은 그 점을 잘 짚어냄

    • 결국 귀는 하나의 푸리에 변환이 아니라, 시간–주파수 해상도 간의 트레이드오프를 가진 여러 변환을 수행함
      인간의 음성과 청각 구조가 공진화(co-evolution) 했을 가능성도 있음
    • 제목은 약간 자극적이지만, 인간 청각의 세부 생리학적 구현(예: 달팽이관 섬모의 변환 메커니즘)을 잘 다뤘다는 점에서 흥미로움
  • 귀는 무한한 시간의 푸리에 변환을 수행하지 않음
    대신 이산적이고 윈도잉된 변환을 수행하며, 이는 시간과 주파수 해상도 간의 불확정성 원리와 유사함
    긴 윈도우는 주파수 해상도를 높이고 시간 해상도를 낮추며, 짧은 윈도우는 그 반대임
    인간의 달팽이관은 저주파에서는 형태음(formant) 을 구분하기 위해 주파수 해상도를 높이고, 고주파에서는 파열음(plosive) 을 감지하기 위해 시간 해상도를 높이는 식으로 작동함

    • ‘파울리 배타 원리’가 아니라 하이젠베르크 불확정성 원리를 말한 것 같음
    • 귀는 데이터 샘플을 취하는 것이 아니라 지속적인 기계적 과정으로 작동함
    • “STFT(단시간 푸리에 변환)”을 떠올리면 이해하기 쉬움
  • 기저막(basilar membrane) 은 놀라운 생물학적 구조임
    컴퓨터 오디오 처리에서는 FFT가 유용하지만, 인간의 시간 인식 기반 청각 모델링에는 한계가 있음

  • 이모세포의 팁 링크와 이온 채널을 보여주는 영상이 흥미로움
    관련 영상
    이 구조가 손상되면 이명(tinnitus) 이 발생할 수 있음
    또 귀에는 능동 증폭(active amplification) 기능이 있어, 전기 신호로 세포를 진동시킬 수도 있음

  • 위 영상은 마지막에 매우 높은 음의 톤으로 끝나므로, 헤드폰을 쓰고 있다면 주의가 필요함

  • 두정엽의 청각 연합 피질이 주파수를 구분한다는 점에서, 귀와 뇌 사이에는 시간-주파수 변환이 존재함
    이는 뉴런의 발화가 이산적이므로 유한 시간 내에서 이루어지는 이산 변환
    유한 신호를 무한 신호로 확장하는 단순한 방법은, 그 신호를 과거와 미래로 무한 반복한다고 가정하는 것임