whisper-large-v3로 중국어 음성을 전사할 때, 침묵 구간이 “좋아요, 공유, 즐겨찾기 부탁드림” 같은 엉뚱한 문장으로 출력됨을 여러 번 경험함, 모델 학습 시 유튜브 동영상에서 무작위로 데이터를 수집해 유용한 자료로 엄선하지 않았다는 의심이 듦
중국어 전사에서는 종종 "연구/학습 목적의 자막입니다. 48시간 후 삭제해주세요." 같은 문구도 추가되는 걸 봄, 이는 자막 봉사자들이 (불법) 영화나 쇼의 자막에 추가하는 면책 문구임
또 다른 모델을 써도 침묵 구간이 ‘시청해 주셔서 감사합니다!’나 ‘[MUSIC]’ 등으로 변환되는 현상을 지속적으로 경험함, 이런 오류가 QA 과정에서 걸러지지 않고 다양한 전사 모델에서 반복되는 점이 아쉬움, 오디오 입력에 침묵 구간이 포함되는 일은 정말 흔하게 발생할 상황임
whisper를 테스트해봤을 때, 유튜브나 핸드폰으로 찍은 동영상에선 성능이 좋지 않다는 인상을 받음, 아마 학습 자료 대부분이 자막이거나 대본일 거라 추측함, 내가 시도한 동영상들은 중국어(만다린)였고, whisper-large-v3를 써서 전형적인 오해와 의미 없는 결과가 나오긴 했지만, 그래도 다른 소프트웨어와 비교하면 성능이 꽤 우수했음, 다만 화자 이름을 임의로 만들어내거나 대사의 앞부분에 붙이기도 하고, 간헐적으로 간체와 번체를 바꿔 사용함, 침묵 구간에서는 마지막 문장을 반복적으로 출력하거나 가끔 영어로 연출 지침처럼 보이는 텍스트를 삽입하는 일도 있었음, 자막이나 엔딩 크레딧 같은 건 못 봤고, 한 영상에선 화자가 감기에 걸려 코를 훌쩍였더니 whisper가 울고 있다고(“* crying ”) 전사하고, 기침은 “ door closing *”으로 번역함, 그다음 줄은 꽤 불친절한 내용으로 전사되기도 했음, 코훌쩍임 부분을 잘라내니까 이상한 전사가 사라졌지만, 이번엔 다시 번체로 전환됨
“청바지를 계산기에 넣으면, 제대로 된 답이 나올까요?”와 비슷한 기분임
유튜브가 캡션 자동 작성 기능을 만들기 시작했을 때, 잡음이나 음악(특히 산업 현장 소음 등)을 항상 “[foreign]”으로 표시했었음, 이해하지 못하는 소리는 오랫동안 “foreign”으로 취급된 경험이 있음
검색 시간을 줄이기 위해 안내함: 아랍어 "رجمة نانسي قنقر"의 뜻은 "Nancy Qanqar의 번역" 또는 "Nancy Qanqar가 번역"임, "رجمة"는 번역, "نانسي قنقر"는 이름임
체코어에서 whisper는 침묵 시 종종 “Titulky vytvořil JohnyX”(자막 제작: JohnyX)로 전사되는 경우가 많음, 비슷한 이유에서임
철자가 잘못 됨을 지적함, "رجمة"가 아니라 맨 앞에 ت가 붙은 "ترجمة"가 맞는 번역임
이러한 전사의 원인은 학습 데이터가 주로 영화의 비공식 자막에서 온 것이기 때문임, 이러한 자막은 영화 끝부분에 “XXX가 번역”과 같이 자주 들어감, 이때 화면에 자막은 나오지만 실제로는 침묵 구간임
Whisper는 환각(hallucination)이 너무 잦아서 쓸 수 없는 수준임, 이런 현상은 여러 번 잘 문서화됨, 오디오에서 침묵을 제거하면 좀 줄어들지만, 문법 자동 교정(예를 들어 이중 언어 스피치 번역 등) 등의 이슈도 있음, 최신 오디오 모델에서 개선은 되었지만 완전히 해결되진 않음 https://news.ycombinator.com/item?id=43427376
개인적으로 “쓸 수 없다”기보단, Whisper의 한계를 먼저 이해하고 우회 방법을 찾는 게 관건임, Whisper 위에서 비즈니스를 만들었는데, 환각을 줄이기 위해 초기에 음성 활성 검출(VAD) 모델을 도입한 게 핵심임, 참고 https://speechischeap.com
대형 모델만 쓸 때 문제임, 항상 작은 위성 모델이나 로직과 함께 조합해야 함, 환각은 기존 ML/DL 모델로도 쉽게 감지 가능함, 침묵 구간에서는 텍스트가 없어야 하는데 이를 감지하는 코드는 만들기 쉬움
녹취 전화의 처음 30초가 벨소리나 DTMF일 경우(기업에 전화할 때 거의 항상 발생) Whisper가 종종 언어를 Nynorsk나 웨일즈어로 잘못 선택함, 어떤 텍스트가 전사되는지까지는 확인하지 않았지만 아마 비슷하게 엉뚱한 내용일 듯함, 내게는 실용상 문제 없지만, 이중 언어 콜센터 등에는 꽤 불편할 수 있음
Hacker News 의견
whisper-large-v3로 중국어 음성을 전사할 때, 침묵 구간이 “좋아요, 공유, 즐겨찾기 부탁드림” 같은 엉뚱한 문장으로 출력됨을 여러 번 경험함, 모델 학습 시 유튜브 동영상에서 무작위로 데이터를 수집해 유용한 자료로 엄선하지 않았다는 의심이 듦
LLM도 마찬가지로, 명확하지 않은 데이터에 치우친 "오버피팅" 현상의 고전적인 사례임, 아웃 오브 오피스 자동응답을 그대로 번역결과로 내놓는 것과 비슷함, 관련 기사 참고 https://www.theguardian.com/theguardian/2008/nov/01/5
검색 시간을 줄이기 위해 안내함: 아랍어 "رجمة نانسي قنقر"의 뜻은 "Nancy Qanqar의 번역" 또는 "Nancy Qanqar가 번역"임, "رجمة"는 번역, "نانسي قنقر"는 이름임
Whisper는 환각(hallucination)이 너무 잦아서 쓸 수 없는 수준임, 이런 현상은 여러 번 잘 문서화됨, 오디오에서 침묵을 제거하면 좀 줄어들지만, 문법 자동 교정(예를 들어 이중 언어 스피치 번역 등) 등의 이슈도 있음, 최신 오디오 모델에서 개선은 되었지만 완전히 해결되진 않음 https://news.ycombinator.com/item?id=43427376
Whisper 영어 버전에서도 침묵 재생 시 “[ sub by sk cn2 ]”, “어쨌든 시청해주셔서 감사합니다! 구독과 좋아요 부탁드려요! 안녕!” 또는 “이 영상이 종료되었습니다. 시청해주셔서 감사합니다. 유익했다면 채널 구독 부탁드립니다.” 등 자주 등장함
러시아어에서는 종종 “Субтитры сделал DimaTorzok”(자막 제작: DimaTorzok)라는 환각이 마지막에 들어가는 경우가 많음, 실제로 그렇게 입력된 자막이 많은지도 궁금해서 유튜브에서 찾아봤지만 많지 않은 듯함
녹취 전화의 처음 30초가 벨소리나 DTMF일 경우(기업에 전화할 때 거의 항상 발생) Whisper가 종종 언어를 Nynorsk나 웨일즈어로 잘못 선택함, 어떤 텍스트가 전사되는지까지는 확인하지 않았지만 아마 비슷하게 엉뚱한 내용일 듯함, 내게는 실용상 문제 없지만, 이중 언어 콜센터 등에는 꽤 불편할 수 있음
“Nicolai Winther는 누구인가?”라는 질문에 대해 https://medium.com/@lehandreassen/who-is-nicolai-winther-985409568201
"OpenAI, 불법 영화로 학습했다는 증거 공개"로 제목을 바꿔야 한다고 주장함
“Nancy Qunqar가 기계적으로 일일이 전사한 게 아닐까”라는 농담도 있음, “Nancy 화이팅! 계속 힘내렴!”식의 격려도 덧붙임