# Whispering - 오픈소스 음성 전사 앱

> Clean Markdown view of GeekNews topic #22601. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=22601](https://news.hada.io/topic?id=22601)
- GeekNews Markdown: [https://news.hada.io/topic/22601.md](https://news.hada.io/topic/22601.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-08-19T14:33:47+09:00
- Updated: 2025-08-19T14:33:47+09:00
- Original source: [github.com/epicenter-so](https://github.com/epicenter-so/epicenter/tree/main/apps/whispering)
- Points: 21
- Comments: 2

## Summary

**Whispering**은 **로컬 우선·오픈소스** 기반의 **음성 인식·텍스트 전사 앱**으로, 빠른 실행과 가벼운 용량(22MB), 커스텀 단축키 등 풍부한 **고급 기능**을 제공합니다.

## Topic Body

- Whispering은 단축키 입력 후 **음성 → 텍스트 변환** 과정을 거쳐 바로 클립보드에 붙여넣는 **로컬 우선 음성 전사 도구**  
- 기존의 많은 도구들이 **폐쇄형·유료 서비스**였던 것과 달리, Whispering은 **투명한 데이터 처리**와 **오픈소스 접근성**을 제공  
- 사용자는 **로컬(Whisper C++, Speaches 등)** 또는 **클라우드(Groq, OpenAI, ElevenLabs 등)** 방식 중 선택할 수 있으며, 원하는 **AI 변환 기능**을 설정할 수 있음  
- 앱은 **22MB로 가볍고 빠른 실행**을 지원하며, 맞춤 단축키, 음성 활성화 모드, 텍스트 자동 포맷팅 등 **고급 기능**을 포함  
- 데이터 소유권과 비용 절감을 동시에 달성할 수 있어, **폐쇄형 전사 SaaS 대안**으로 의미 있는 프로젝트  
  
---  
### Whispering 개요  
- **Whispering**은 무료·오픈소스 기반의 음성 전사 앱으로, 단축키를 누른 후 음성을 입력하면 텍스트로 변환 후 자동 복사됨  
  - 개인 데이터는 기본적으로 **로컬에 저장**되며, 외부로 전송되지 않음  
  - 원할 경우 OpenAI, Groq, ElevenLabs 등 외부 API를 직접 연결 가능  
- **투명성**과 **데이터 소유권 보장**을 핵심 가치로 내세움  
  
### 주요 기능과 특징  
- **음성 활성화 모드(Voice Activity Detection, VAD)** 지원  
  - 사용자가 말하면 자동으로 녹음 시작, 멈추면 자동으로 종료  
- **AI 기반 변환(Transformations)** 기능  
  - 문법 교정, 번역, 요약, 서식 적용 등 다양한 AI 워크플로우를 설정 가능  
  - OpenAI, Anthropic, Google Gemini, Groq 등 다양한 LLM 제공자 선택 가능  
- **커스텀 단축키** 지원으로 사용자 환경 맞춤화 가능  
- **저비용 구조**: 직접 API 키를 사용해 제공자에 비용 지불  
  - 예: Groq 모델 사용 시 0.02$/시간 → 월 0.20$ 수준 (전통적 SaaS 대비 100배 저렴)  
  
### 설치 및 사용  
- **macOS, Windows, Linux**용 바이너리 제공  
  - macOS: Apple Silicon/Intel 버전 구분 제공  
  - Windows: MSI/EXE 설치 옵션 제공  
  - Linux: AppImage, DEB, RPM 지원  
- 설치가 번거로운 경우 **웹 앱 버전**도 제공 (단, 전역 단축키는 지원 안 됨)  
  
### 데이터 처리 방식  
- 모든 **녹음 및 전사 결과는 IndexedDB**에 저장되어 로컬 관리  
- 외부 전사 서비스를 선택할 경우, **API 키를 통한 직접 호출**만 발생  
  - 서버 중계 없음, 데이터 수집 없음  
- **변환 서비스** 역시 사용자가 선택한 LLM 제공자에게만 전송  
  - 변환 워크플로우, 프롬프트, 설정 값은 로컬에 저장됨  
  
### 차별점과 장점  
- 기존 전사 앱들은 중간 서버를 거치며 **월 15~30달러** 요금을 부과  
- Whispering은 **중간자 없는 구조**로, 직접 제공자와 연결해 비용 절감 가능  
- 로컬 옵션 선택 시 **완전한 오프라인, 무료, 무제한 사용** 가능  
  
### 개발 및 아키텍처  
- **Svelte 5 + Tauri** 기반으로 제작되어 데스크톱과 웹 모두 지원  
  - 크기 약 22MB, 빠른 실행, 리소스 최소 사용  
- 코드베이스는 **서비스 계층, 쿼리 계층, UI 계층**으로 나뉜 **3계층 아키텍처**  
  - 웹과 데스크톱 버전 간 **97% 코드 공유**  
- 브라우저 확장(React + shadcn/ui)은 현재 임시 중단, 데스크톱 앱 안정화 중  
  
### 기여와 커뮤니티  
- 누구나 소스코드 검토, 기능 기여, 새로운 **전사/AI 서비스 어댑터 추가** 가능  
- 개발 지침: TypeScript/Svelte 패턴 유지, WellCrafted 라이브러리 기반 에러 처리  
- Discord 커뮤니티 및 GitHub Issues를 통해 **사용자 피드백과 협업** 진행  
- **MIT 라이선스** 기반으로 자유롭게 포크·수정·재배포 가능  
  
### FAQ 주요 답변  
- **오프라인 사용 가능 여부**: Speaches 로컬 모드로 완전 오프라인 지원  
- **실제 비용**: Groq 사용 시 월 0.2~3$, OpenAI 사용 시 월 1.8~16.2$, 로컬은 무료  
- **보안/프라이버시**: 녹음은 로컬 보관, 외부 전송은 사용자 직접 선택한 제공자 API로만 전송  
- **지원 플랫폼**: macOS, Windows, Linux 데스크톱 + 웹 브라우저

## Comments


### Comment 42755

- Author: wedding
- Created: 2025-08-21T16:02:04+09:00
- Points: 1

폐쇄망에서 음성인식 기능을 구현하기 위해 whisper로 STT 하는 가벼운 웹서버를 만들어서 쓰고 있는데요.  
오프라인에서 다 되는것처럼 설명을 하고 있지만, 전사 기능 말고 트랜스포메이션 같은것들은 클라우드에 의존해야 하니 차별점과 장점이 무슨 의미가 있나 싶네요.

### Comment 42656

- Author: neo
- Created: 2025-08-19T14:33:48+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=44942731) 
* Parakeet 모델을 로컬에서 쓸 수 있는지 궁금함, MacWhisper를 사용하는데 Parakeet이 기기 내 전사 성능에서 Whisper보다 월등히 빠르고 정확해서 아주 만족하며, push-to-transcribe를 MacWhisper와 Parakeet 조합으로 오랫동안 써왔음, 정말 마법 같은 경험임
  * 아직 지원은 안 되지만 나도 꼭 바라는 기능임, Parakeet이 리더보드에서 굉장한 결과를 낸 걸 봤고 현재는 whisper.cpp 통합을 안정화한 다음 Parakeet 지원을 추가할 생각임, 누가 PR로 커넥터를 만들어준다면 바로 머지할 준비가 됨
  * Parakeet 정말 놀라움, A100 GPU에서는 실시간 대비 3000배 속도, 노트북 CPU에서도 실시간의 5배 속도임, whisper-large-v3보다 정확함, [huggingface ASR 리더보드](https://huggingface.co/spaces/hf-audio/open_asr_leaderboard) 참고하면 됨, 다만 NeMo 프레임워크는 좀 번거로울 수 있음, Mac에서 (MacWhisper로) 로컬 동작하는 것이 놀라움
* 오늘 아침에 레포를 확인하는 분들을 위해 안내함, whisper C++ 지원 기능을 추가하는 릴리스를 준비 중임, [프로그레스 PR 링크](https://github.com/epicenter-so/epicenter/pull/655) 참고하면 되고, 이 공개가 되면 훨씬 더 강력한 로컬 전사 지원을 할 예정임, 몇 가지 작은 수정들만 마치면 됨
* 오픈소스 기반의 로컬 우선 앱이 모든 유형으로 존재했으면 좋겠고, 각각이 잘 연동되길 바람, Epicenter의 아이디어는 모든 데이터를 텍스트와 SQLite로 폴더에 저장해서 투명하고 신뢰할 수 있게 만드는 것임, 그 위에 상호운용이 가능한 로컬 우선 도구들을 얹는 구조임, 이런 투명함이 신뢰할 수 있는 점이 정말 좋음, TTS는 경험이 거의 없지만 이 영역을 파볼 땐 Epicenter 덕분에 Whispering부터 시작하려고 함, 레포에 스타 눌렀고 기여할 만한 앱 아이디어도 고민해볼 생각임, YC 진출 축하하며 고마움 전함
  * 지지해줘서 정말 고맙고, 이런 피드백이 너무 귀중함, 오픈소스와 자가 데이터 보유의 가치를 공유하는 분과 소통하게 되어 기쁨, YC 기간 동안 더 많은 OSS 개발자를 지원하는 방향으로 열심히 해보겠음, 지속적으로 소통 유지하면 좋겠음
  * 여기선 TTS(음성 합성)가 아니라 STT(음성 인식) 얘기인 것 같음
  * 나중에 클라우드 버전도 원한다면 AgentDB API를 활용해 해당 데이터만 업로드하고, 쿼리만 클라우드로 돌리면 됨
* 멋진 제품을 공유해줘서 고마움, 지난주에 상용 제품들이 느려서 직접 로컬에서 동작하는 비슷한 앱을 개발했음, 버튼 한 번에 모든 음성을 녹음하고 전사해서 앱에 넣는 기능임, 모국어로 말하면 자동으로 영어로 번역되는 2번째 모드도 만들었음, 쉼표나 따옴표처럼 포맷 유지도 제대로 구현했음, 이런 게 MacOS 기본 받아쓰기 앱에 아직 구현 안 된 게 신기함
  * 지지해줘서 정말 고맙고, 번역에도 도움이 됐다니 반가움, MacOS 기본 받아쓰기 기능이 이 정도 발전을 못한 게 의아함, 그 빈자리를 OSS가 채우는 중임
* iOS에도 이 기능이 있는지 궁금함, Parakeet이나 Whisper를 감싼 커스텀 iOS 키보드 앱을 원함, 그래서 받아쓰기 키보드로 전환하고 버튼만 누르면 모든 앱(1,3rd party 포함)에 바로 전사 내용을 넣을 수 있으면 좋겠음, MacOS에선 MacWhisper가 정말 훌륭한데 iOS엔 똑같은 기능이 아직 없음, iOS 기본 받아쓰기도 좋긴 하지만 기술 용어나 약어는 Whisper cpp가 훨씬 더 잘 알아들음
  * superwhisper가 그 기능을 제공함
* 로컬에서 오디오를 처리하는 받아쓰기 기능에 관심 있었음, 원격 API로 오디오를 보내는 것은 싫고 전부 노출 없이 로컬에서만 동작해야 함, FUTO Keyboard에서 사용하는 모델 등 몇 가지만 써봤는데, 아직 부족하다는 느낌임, 특히 잡음 처리나 "음...", "에..." 같은 군더더기, 말하다가 중간 수정 같은 것도 잘 못 따라감, 이런 부분을 잘 해결한 오픈 모델이 나오길 바람, 앱의 문제인지 모델의 한계인지 아직 판단 어렵지만 관련 새로운 모델이 있는지 궁금함, 그전까진 불편하지만 계속 타이핑으로 노트 테이킹 해야 할 듯함
  * Whisper 본체는 써봤는지 추천하고 싶음, 오픈 웨이트라 쓸 수 있고, 위에 소개된 Epicenter의 특징 중 "트랜스크립션 변환" 기능이 있음, 텍스트를 LLM으로 입력해서 더 깔끔하게 정제할 수 있음, 토큰 비용만 감당할 수 있다면 군더더기 제거 뿐만 아니라 의미 단위로 문장도 자동 교정 처리 가능할 것임
* 이 분야에서 로컬 우선 방식과 자체 백업툴 조합이라는 개념이 점점 좋아지고 있음, 최근 [hyprnote](https://hyprnote.com)가 Hacker News에서 인기를 끌었는데, 정말 잘 만들어졌고, 로컬 우선이지만 선호하는 도구로도 활용 가능함
  * Hyprnote도 정말 팬임, 두 제품이 조금씩 다르지만 기술 스택에도 겹치는 부분이 많고 미션도 많이 닮아 있음
* whispering을 1년 넘게 사용했는데 컴퓨터와 상호작용하는 방식 자체가 달라졌음, 꼭 프로그래머블 키가 있는 마우스와 키보드를 사서 whispering 단축키를 등록함, 이제는 일반 타이핑으로 다시 돌아갈 수 없을 만큼 키 입력이 비효율적으로 느껴짐
  * 응원해줘서 정말 고맙고 이런 피드백이 큰 힘이 됨, 앞으로도 문제 생기면 언제든 연락해줬으면 함
* 이 기술이 어린이 음성에도 잘 동작할지 궁금함, 교육용 앱에서 프라이버시가 중요한 로컬 기반 모델에 수요가 많음, 근데 현재 Whisper는 어린 연령대에서 잘 못 알아듣는 걸로 알고 있음
  * 맞음, Whisper는 어린이 목소리에 약한 편임, Parakeet이나 다른 모델은 아직 테스트 안 해봤는데, 교육용에서 프라이버시가 중요하니 좋은 사례임, Hyprnote도 추천하고 싶음, 최근 OWhisper 등 모델 확장을 꾀하고 있음, [Hyprnote 소개](https://hyprnote.com/), [OWhisper 자세히](https://docs.hyprnote.com/owhisper/what-is-this) 참고 바람
* 로컬 우선 오픈소스 소프트웨어에 집착하고 있음, 모두가 그렇게 해야 한다고 생각함
  * 정말 공감함