16P by GN⁺ 4일전 | ★ favorite | 댓글 2개
  • Whispering은 단축키 입력 후 음성 → 텍스트 변환 과정을 거쳐 바로 클립보드에 붙여넣는 로컬 우선 음성 전사 도구
  • 기존의 많은 도구들이 폐쇄형·유료 서비스였던 것과 달리, Whispering은 투명한 데이터 처리오픈소스 접근성을 제공
  • 사용자는 로컬(Whisper C++, Speaches 등) 또는 클라우드(Groq, OpenAI, ElevenLabs 등) 방식 중 선택할 수 있으며, 원하는 AI 변환 기능을 설정할 수 있음
  • 앱은 22MB로 가볍고 빠른 실행을 지원하며, 맞춤 단축키, 음성 활성화 모드, 텍스트 자동 포맷팅 등 고급 기능을 포함
  • 데이터 소유권과 비용 절감을 동시에 달성할 수 있어, 폐쇄형 전사 SaaS 대안으로 의미 있는 프로젝트

Whispering 개요

  • Whispering은 무료·오픈소스 기반의 음성 전사 앱으로, 단축키를 누른 후 음성을 입력하면 텍스트로 변환 후 자동 복사됨
    • 개인 데이터는 기본적으로 로컬에 저장되며, 외부로 전송되지 않음
    • 원할 경우 OpenAI, Groq, ElevenLabs 등 외부 API를 직접 연결 가능
  • 투명성데이터 소유권 보장을 핵심 가치로 내세움

주요 기능과 특징

  • 음성 활성화 모드(Voice Activity Detection, VAD) 지원
    • 사용자가 말하면 자동으로 녹음 시작, 멈추면 자동으로 종료
  • AI 기반 변환(Transformations) 기능
    • 문법 교정, 번역, 요약, 서식 적용 등 다양한 AI 워크플로우를 설정 가능
    • OpenAI, Anthropic, Google Gemini, Groq 등 다양한 LLM 제공자 선택 가능
  • 커스텀 단축키 지원으로 사용자 환경 맞춤화 가능
  • 저비용 구조: 직접 API 키를 사용해 제공자에 비용 지불
    • 예: Groq 모델 사용 시 0.02$/시간 → 월 0.20$ 수준 (전통적 SaaS 대비 100배 저렴)

설치 및 사용

  • macOS, Windows, Linux용 바이너리 제공
    • macOS: Apple Silicon/Intel 버전 구분 제공
    • Windows: MSI/EXE 설치 옵션 제공
    • Linux: AppImage, DEB, RPM 지원
  • 설치가 번거로운 경우 웹 앱 버전도 제공 (단, 전역 단축키는 지원 안 됨)

데이터 처리 방식

  • 모든 녹음 및 전사 결과는 IndexedDB에 저장되어 로컬 관리
  • 외부 전사 서비스를 선택할 경우, API 키를 통한 직접 호출만 발생
    • 서버 중계 없음, 데이터 수집 없음
  • 변환 서비스 역시 사용자가 선택한 LLM 제공자에게만 전송
    • 변환 워크플로우, 프롬프트, 설정 값은 로컬에 저장됨

차별점과 장점

  • 기존 전사 앱들은 중간 서버를 거치며 월 15~30달러 요금을 부과
  • Whispering은 중간자 없는 구조로, 직접 제공자와 연결해 비용 절감 가능
  • 로컬 옵션 선택 시 완전한 오프라인, 무료, 무제한 사용 가능

개발 및 아키텍처

  • Svelte 5 + Tauri 기반으로 제작되어 데스크톱과 웹 모두 지원
    • 크기 약 22MB, 빠른 실행, 리소스 최소 사용
  • 코드베이스는 서비스 계층, 쿼리 계층, UI 계층으로 나뉜 3계층 아키텍처
    • 웹과 데스크톱 버전 간 97% 코드 공유
  • 브라우저 확장(React + shadcn/ui)은 현재 임시 중단, 데스크톱 앱 안정화 중

기여와 커뮤니티

  • 누구나 소스코드 검토, 기능 기여, 새로운 전사/AI 서비스 어댑터 추가 가능
  • 개발 지침: TypeScript/Svelte 패턴 유지, WellCrafted 라이브러리 기반 에러 처리
  • Discord 커뮤니티 및 GitHub Issues를 통해 사용자 피드백과 협업 진행
  • MIT 라이선스 기반으로 자유롭게 포크·수정·재배포 가능

FAQ 주요 답변

  • 오프라인 사용 가능 여부: Speaches 로컬 모드로 완전 오프라인 지원
  • 실제 비용: Groq 사용 시 월 0.2~3$, OpenAI 사용 시 월 1.8~16.2$, 로컬은 무료
  • 보안/프라이버시: 녹음은 로컬 보관, 외부 전송은 사용자 직접 선택한 제공자 API로만 전송
  • 지원 플랫폼: macOS, Windows, Linux 데스크톱 + 웹 브라우저

폐쇄망에서 음성인식 기능을 구현하기 위해 whisper로 STT 하는 가벼운 웹서버를 만들어서 쓰고 있는데요.
오프라인에서 다 되는것처럼 설명을 하고 있지만, 전사 기능 말고 트랜스포메이션 같은것들은 클라우드에 의존해야 하니 차별점과 장점이 무슨 의미가 있나 싶네요.

Hacker News 의견
  • Parakeet 모델을 로컬에서 쓸 수 있는지 궁금함, MacWhisper를 사용하는데 Parakeet이 기기 내 전사 성능에서 Whisper보다 월등히 빠르고 정확해서 아주 만족하며, push-to-transcribe를 MacWhisper와 Parakeet 조합으로 오랫동안 써왔음, 정말 마법 같은 경험임
    • 아직 지원은 안 되지만 나도 꼭 바라는 기능임, Parakeet이 리더보드에서 굉장한 결과를 낸 걸 봤고 현재는 whisper.cpp 통합을 안정화한 다음 Parakeet 지원을 추가할 생각임, 누가 PR로 커넥터를 만들어준다면 바로 머지할 준비가 됨
    • Parakeet 정말 놀라움, A100 GPU에서는 실시간 대비 3000배 속도, 노트북 CPU에서도 실시간의 5배 속도임, whisper-large-v3보다 정확함, huggingface ASR 리더보드 참고하면 됨, 다만 NeMo 프레임워크는 좀 번거로울 수 있음, Mac에서 (MacWhisper로) 로컬 동작하는 것이 놀라움
  • 오늘 아침에 레포를 확인하는 분들을 위해 안내함, whisper C++ 지원 기능을 추가하는 릴리스를 준비 중임, 프로그레스 PR 링크 참고하면 되고, 이 공개가 되면 훨씬 더 강력한 로컬 전사 지원을 할 예정임, 몇 가지 작은 수정들만 마치면 됨
  • 오픈소스 기반의 로컬 우선 앱이 모든 유형으로 존재했으면 좋겠고, 각각이 잘 연동되길 바람, Epicenter의 아이디어는 모든 데이터를 텍스트와 SQLite로 폴더에 저장해서 투명하고 신뢰할 수 있게 만드는 것임, 그 위에 상호운용이 가능한 로컬 우선 도구들을 얹는 구조임, 이런 투명함이 신뢰할 수 있는 점이 정말 좋음, TTS는 경험이 거의 없지만 이 영역을 파볼 땐 Epicenter 덕분에 Whispering부터 시작하려고 함, 레포에 스타 눌렀고 기여할 만한 앱 아이디어도 고민해볼 생각임, YC 진출 축하하며 고마움 전함
    • 지지해줘서 정말 고맙고, 이런 피드백이 너무 귀중함, 오픈소스와 자가 데이터 보유의 가치를 공유하는 분과 소통하게 되어 기쁨, YC 기간 동안 더 많은 OSS 개발자를 지원하는 방향으로 열심히 해보겠음, 지속적으로 소통 유지하면 좋겠음
    • 여기선 TTS(음성 합성)가 아니라 STT(음성 인식) 얘기인 것 같음
    • 나중에 클라우드 버전도 원한다면 AgentDB API를 활용해 해당 데이터만 업로드하고, 쿼리만 클라우드로 돌리면 됨
  • 멋진 제품을 공유해줘서 고마움, 지난주에 상용 제품들이 느려서 직접 로컬에서 동작하는 비슷한 앱을 개발했음, 버튼 한 번에 모든 음성을 녹음하고 전사해서 앱에 넣는 기능임, 모국어로 말하면 자동으로 영어로 번역되는 2번째 모드도 만들었음, 쉼표나 따옴표처럼 포맷 유지도 제대로 구현했음, 이런 게 MacOS 기본 받아쓰기 앱에 아직 구현 안 된 게 신기함
    • 지지해줘서 정말 고맙고, 번역에도 도움이 됐다니 반가움, MacOS 기본 받아쓰기 기능이 이 정도 발전을 못한 게 의아함, 그 빈자리를 OSS가 채우는 중임
  • iOS에도 이 기능이 있는지 궁금함, Parakeet이나 Whisper를 감싼 커스텀 iOS 키보드 앱을 원함, 그래서 받아쓰기 키보드로 전환하고 버튼만 누르면 모든 앱(1,3rd party 포함)에 바로 전사 내용을 넣을 수 있으면 좋겠음, MacOS에선 MacWhisper가 정말 훌륭한데 iOS엔 똑같은 기능이 아직 없음, iOS 기본 받아쓰기도 좋긴 하지만 기술 용어나 약어는 Whisper cpp가 훨씬 더 잘 알아들음
    • superwhisper가 그 기능을 제공함
  • 로컬에서 오디오를 처리하는 받아쓰기 기능에 관심 있었음, 원격 API로 오디오를 보내는 것은 싫고 전부 노출 없이 로컬에서만 동작해야 함, FUTO Keyboard에서 사용하는 모델 등 몇 가지만 써봤는데, 아직 부족하다는 느낌임, 특히 잡음 처리나 "음...", "에..." 같은 군더더기, 말하다가 중간 수정 같은 것도 잘 못 따라감, 이런 부분을 잘 해결한 오픈 모델이 나오길 바람, 앱의 문제인지 모델의 한계인지 아직 판단 어렵지만 관련 새로운 모델이 있는지 궁금함, 그전까진 불편하지만 계속 타이핑으로 노트 테이킹 해야 할 듯함
    • Whisper 본체는 써봤는지 추천하고 싶음, 오픈 웨이트라 쓸 수 있고, 위에 소개된 Epicenter의 특징 중 "트랜스크립션 변환" 기능이 있음, 텍스트를 LLM으로 입력해서 더 깔끔하게 정제할 수 있음, 토큰 비용만 감당할 수 있다면 군더더기 제거 뿐만 아니라 의미 단위로 문장도 자동 교정 처리 가능할 것임
  • 이 분야에서 로컬 우선 방식과 자체 백업툴 조합이라는 개념이 점점 좋아지고 있음, 최근 hyprnote가 Hacker News에서 인기를 끌었는데, 정말 잘 만들어졌고, 로컬 우선이지만 선호하는 도구로도 활용 가능함
    • Hyprnote도 정말 팬임, 두 제품이 조금씩 다르지만 기술 스택에도 겹치는 부분이 많고 미션도 많이 닮아 있음
  • whispering을 1년 넘게 사용했는데 컴퓨터와 상호작용하는 방식 자체가 달라졌음, 꼭 프로그래머블 키가 있는 마우스와 키보드를 사서 whispering 단축키를 등록함, 이제는 일반 타이핑으로 다시 돌아갈 수 없을 만큼 키 입력이 비효율적으로 느껴짐
    • 응원해줘서 정말 고맙고 이런 피드백이 큰 힘이 됨, 앞으로도 문제 생기면 언제든 연락해줬으면 함
  • 이 기술이 어린이 음성에도 잘 동작할지 궁금함, 교육용 앱에서 프라이버시가 중요한 로컬 기반 모델에 수요가 많음, 근데 현재 Whisper는 어린 연령대에서 잘 못 알아듣는 걸로 알고 있음
    • 맞음, Whisper는 어린이 목소리에 약한 편임, Parakeet이나 다른 모델은 아직 테스트 안 해봤는데, 교육용에서 프라이버시가 중요하니 좋은 사례임, Hyprnote도 추천하고 싶음, 최근 OWhisper 등 모델 확장을 꾀하고 있음, Hyprnote 소개, OWhisper 자세히 참고 바람
  • 로컬 우선 오픈소스 소프트웨어에 집착하고 있음, 모두가 그렇게 해야 한다고 생각함
    • 정말 공감함