Parakeet 모델을 로컬에서 쓸 수 있는지 궁금함, MacWhisper를 사용하는데 Parakeet이 기기 내 전사 성능에서 Whisper보다 월등히 빠르고 정확해서 아주 만족하며, push-to-transcribe를 MacWhisper와 Parakeet 조합으로 오랫동안 써왔음, 정말 마법 같은 경험임
아직 지원은 안 되지만 나도 꼭 바라는 기능임, Parakeet이 리더보드에서 굉장한 결과를 낸 걸 봤고 현재는 whisper.cpp 통합을 안정화한 다음 Parakeet 지원을 추가할 생각임, 누가 PR로 커넥터를 만들어준다면 바로 머지할 준비가 됨
Parakeet 정말 놀라움, A100 GPU에서는 실시간 대비 3000배 속도, 노트북 CPU에서도 실시간의 5배 속도임, whisper-large-v3보다 정확함, huggingface ASR 리더보드 참고하면 됨, 다만 NeMo 프레임워크는 좀 번거로울 수 있음, Mac에서 (MacWhisper로) 로컬 동작하는 것이 놀라움
오늘 아침에 레포를 확인하는 분들을 위해 안내함, whisper C++ 지원 기능을 추가하는 릴리스를 준비 중임, 프로그레스 PR 링크 참고하면 되고, 이 공개가 되면 훨씬 더 강력한 로컬 전사 지원을 할 예정임, 몇 가지 작은 수정들만 마치면 됨
오픈소스 기반의 로컬 우선 앱이 모든 유형으로 존재했으면 좋겠고, 각각이 잘 연동되길 바람, Epicenter의 아이디어는 모든 데이터를 텍스트와 SQLite로 폴더에 저장해서 투명하고 신뢰할 수 있게 만드는 것임, 그 위에 상호운용이 가능한 로컬 우선 도구들을 얹는 구조임, 이런 투명함이 신뢰할 수 있는 점이 정말 좋음, TTS는 경험이 거의 없지만 이 영역을 파볼 땐 Epicenter 덕분에 Whispering부터 시작하려고 함, 레포에 스타 눌렀고 기여할 만한 앱 아이디어도 고민해볼 생각임, YC 진출 축하하며 고마움 전함
지지해줘서 정말 고맙고, 이런 피드백이 너무 귀중함, 오픈소스와 자가 데이터 보유의 가치를 공유하는 분과 소통하게 되어 기쁨, YC 기간 동안 더 많은 OSS 개발자를 지원하는 방향으로 열심히 해보겠음, 지속적으로 소통 유지하면 좋겠음
여기선 TTS(음성 합성)가 아니라 STT(음성 인식) 얘기인 것 같음
나중에 클라우드 버전도 원한다면 AgentDB API를 활용해 해당 데이터만 업로드하고, 쿼리만 클라우드로 돌리면 됨
멋진 제품을 공유해줘서 고마움, 지난주에 상용 제품들이 느려서 직접 로컬에서 동작하는 비슷한 앱을 개발했음, 버튼 한 번에 모든 음성을 녹음하고 전사해서 앱에 넣는 기능임, 모국어로 말하면 자동으로 영어로 번역되는 2번째 모드도 만들었음, 쉼표나 따옴표처럼 포맷 유지도 제대로 구현했음, 이런 게 MacOS 기본 받아쓰기 앱에 아직 구현 안 된 게 신기함
지지해줘서 정말 고맙고, 번역에도 도움이 됐다니 반가움, MacOS 기본 받아쓰기 기능이 이 정도 발전을 못한 게 의아함, 그 빈자리를 OSS가 채우는 중임
iOS에도 이 기능이 있는지 궁금함, Parakeet이나 Whisper를 감싼 커스텀 iOS 키보드 앱을 원함, 그래서 받아쓰기 키보드로 전환하고 버튼만 누르면 모든 앱(1,3rd party 포함)에 바로 전사 내용을 넣을 수 있으면 좋겠음, MacOS에선 MacWhisper가 정말 훌륭한데 iOS엔 똑같은 기능이 아직 없음, iOS 기본 받아쓰기도 좋긴 하지만 기술 용어나 약어는 Whisper cpp가 훨씬 더 잘 알아들음
superwhisper가 그 기능을 제공함
로컬에서 오디오를 처리하는 받아쓰기 기능에 관심 있었음, 원격 API로 오디오를 보내는 것은 싫고 전부 노출 없이 로컬에서만 동작해야 함, FUTO Keyboard에서 사용하는 모델 등 몇 가지만 써봤는데, 아직 부족하다는 느낌임, 특히 잡음 처리나 "음...", "에..." 같은 군더더기, 말하다가 중간 수정 같은 것도 잘 못 따라감, 이런 부분을 잘 해결한 오픈 모델이 나오길 바람, 앱의 문제인지 모델의 한계인지 아직 판단 어렵지만 관련 새로운 모델이 있는지 궁금함, 그전까진 불편하지만 계속 타이핑으로 노트 테이킹 해야 할 듯함
Whisper 본체는 써봤는지 추천하고 싶음, 오픈 웨이트라 쓸 수 있고, 위에 소개된 Epicenter의 특징 중 "트랜스크립션 변환" 기능이 있음, 텍스트를 LLM으로 입력해서 더 깔끔하게 정제할 수 있음, 토큰 비용만 감당할 수 있다면 군더더기 제거 뿐만 아니라 의미 단위로 문장도 자동 교정 처리 가능할 것임
이 분야에서 로컬 우선 방식과 자체 백업툴 조합이라는 개념이 점점 좋아지고 있음, 최근 hyprnote가 Hacker News에서 인기를 끌었는데, 정말 잘 만들어졌고, 로컬 우선이지만 선호하는 도구로도 활용 가능함
Hyprnote도 정말 팬임, 두 제품이 조금씩 다르지만 기술 스택에도 겹치는 부분이 많고 미션도 많이 닮아 있음
whispering을 1년 넘게 사용했는데 컴퓨터와 상호작용하는 방식 자체가 달라졌음, 꼭 프로그래머블 키가 있는 마우스와 키보드를 사서 whispering 단축키를 등록함, 이제는 일반 타이핑으로 다시 돌아갈 수 없을 만큼 키 입력이 비효율적으로 느껴짐
응원해줘서 정말 고맙고 이런 피드백이 큰 힘이 됨, 앞으로도 문제 생기면 언제든 연락해줬으면 함
이 기술이 어린이 음성에도 잘 동작할지 궁금함, 교육용 앱에서 프라이버시가 중요한 로컬 기반 모델에 수요가 많음, 근데 현재 Whisper는 어린 연령대에서 잘 못 알아듣는 걸로 알고 있음
맞음, Whisper는 어린이 목소리에 약한 편임, Parakeet이나 다른 모델은 아직 테스트 안 해봤는데, 교육용에서 프라이버시가 중요하니 좋은 사례임, Hyprnote도 추천하고 싶음, 최근 OWhisper 등 모델 확장을 꾀하고 있음, Hyprnote 소개, OWhisper 자세히 참고 바람
Hacker News 의견