4P by neo 1달전 | ★ favorite | 댓글 1개
  • 문화적 맥락

    • StarCraft: Brood War(이하 BW)는 한국에서 매우 중요한 게임으로, 대부분의 프로 선수, 팀, 대회가 한국에 기반을 두고 있음.
    • BW는 체스와 유사하게 전략 게임으로, 게임을 플레이하는 것뿐만 아니라 연구하는 것도 중요함.
    • 체스의 오프닝처럼 BW에서도 특정 전략과 빌드가 있으며, 이는 커뮤니티 내에서 개발된 도메인 특화 언어임.
  • 외국인 지식 문제

    • 외국인 커뮤니티의 대부분은 한국어에 능통하지 않음.
    • 한국어를 유창하게 구사하는 외국인은 드물며, 이로 인해 외국인 커뮤니티는 한국 커뮤니티에 비해 정보 접근이 제한적임.
    • 기계 번역은 도메인 특화 언어를 번역하는 데 한계가 있으며, 이는 외국인 커뮤니티가 한국 커뮤니티에 뒤처지게 만든 요인임.
  • 새로운 번역 프로세스

    • 새로운 기계 번역 프로세스를 통해 더 정확한 번역을 제공할 수 있게 됨.
    • 하루에 약 7개의 비디오를 번역할 수 있었으며, 이는 이전보다 훨씬 빠른 속도임.
  • 기술 스택

    • 자막을 생성하고 소비하는 두 부분으로 나뉨.
    • yt-dlpOpenAI Whisper를 사용하여 비디오의 오디오 트랙을 다운로드하고, 이를 통해 자막을 생성함.
    • Google Colab을 사용하여 Whisper를 실행하고, 비디오 URL을 입력받아 한국어 SRT 파일을 생성함.
    • LLM슬랭 사전을 사용하여 번역의 정확성을 높임.
  • 자막 소비

    • TamperMonkey를 사용하여 YouTube 비디오에 버튼을 추가하고, 번역된 자막을 다운로드할 수 있게 함.
    • PastebinGoogle Sheets + Apps Script를 사용하여 자막을 공유하고 관리함.
  • 개선점

    • 여러 언어를 지원하는 기능 추가 가능성.
    • 기술적 개선점으로는 특정 비디오에만 버튼을 표시하는 기능 추가 가능성.
  • 최종 생각

    • 성능, 확장성, 지연 시간 등은 중요하지 않으며, 이미 존재하는 솔루션을 결합하여 프로젝트를 완성함.
    • 사용자 스크립트와 Colab 노트북의 Python 코드는 짧고 유지보수가 용이함.
    • 이 프로젝트는 가장 간단한 CRUD 시스템이며, 복잡성이 크게 증가할 이유가 없음.
Hacker News 의견
  • 한국 BW 플레이어이자 음성 인식 연구자로서 이 글이 재미있었음. 원래 한국어 전사에 많은 오류가 있었지만 LLMs가 이를 인상적으로 수정했음. 예를 들어, "12 안마당 빌드"는 실제로 "12 앞마당 빌드"였음. 투에처리 빌드는 투해처리 빌드로 전사되어야 했음.

    • 슬랭 사전을 Whisper의 추론 과정에 직접 입력하는 것이 도움이 될 수 있음. 가장 간단한 방법은 최종 예측 레이어에서 사전의 슬랭 단어의 확률을 일정한 비율로 증가시키는 것임. HuggingFace의 라이브러리를 사용하여 쉽게 구현할 수 있음.
  • 제목에 속지 말 것. 이 글은 StarCraft의 해설을 번역하고 접근성을 높이는 매우 철저하고 창의적인 접근임.

    • 게임 해설은 27년 동안 특정 도메인 언어가 되었음.
    • 자동 스크립팅과 AI를 사용하여 대략적으로 이해하고 일관되게 만드는 접근이 매우 멋짐.
  • 비영어권 사용자로서 이 글을 읽으면서 컴퓨터 기사와 소프트웨어 개발 번역의 어려움을 떠올림.

    • 번역하기 어려운 용어가 많음. 유일한 해결책은 언어에 맞게 용어를 채택하는 것임.
    • 소프트웨어 개발을 스페인어로 이야기할 때 영어에서 수입된 용어가 많음.
    • 자동 번역이 어떻게 처리할지 궁금하며, 사회적으로 두 언어를 혼합하는 과정이 필요함.
  • Google Translate 버전을 잘 이해할 수 있었음. BW와 zerg 12hatch 오프너에 익숙하기 때문임.

    • ChatGPT와 Claude가 한국어 텍스트 번역을 훌륭하게 수행했음.
    • Claude의 번역 예시: 12 해처리 빌드에 대해 설명하며, Protoss와 Terran에 대한 빌드 순서를 설명함.
  • 번역에 대한 글에서 신호 대 잡음 비율을 완전히 반대로 이해한 것이 재미있음. 높은 신호 대 잡음 비율은 좋은 것임.

  • yt-dlp를 사용하여 대역폭을 절약하기 위해 낮은 품질의 비디오를 다운로드할 수 있음.

    • 예시 명령어: yt-dlp -f "bv[height<=720]" <url>
  • 어린 시절 돈맵을 플레이한 사람으로서 건물 앞의 숫자가 무엇을 의미하는지 궁금했음.

    • 12 해처리와 같은 숫자는 빌드 순서에서의 위치를 나타내는 것 같음.
  • Google Translate가 좋아졌지만, Go 게임에 대한 중국어 또는 일본어 텍스트를 효과적으로 번역할 수 없었음.

    • 현대 LLMs를 사용하여 Go 용어를 포함한 번역 요청을 할 수 있음.
  • 이 글을 좋아했음. 세계 사이버 게임 미국 지역 경기를 시도했을 때 다른 사람들이 얼마나 빠른지에 놀랐음.

    • 한국에서의 라이브 스트리밍을 보고 그들의 속도에 감명받았음.
    • 전략적 관점에서 기본적인 것을 놓쳤음을 깨달았음.
  • "natural expansion"을 "courtyard"로 번역한 것이 "잘못"이지만 마음에 들었음.