9P by xguru 2달전 | favorite | 댓글 1개
  • 음성 인식과 자연어 명령을 결합한 음성 기반 문서 편집기
  • 사용자가 "목록으로 만들어줘" 또는 "이 책의 86페이지에 인라인 인용을 추가해줘"와 같이 말하면 해당 명령을 실행
  • 음성 인식 소프트웨어는 여전히 불편하고 취약한 경험을 제공
    • 소프트웨어들은 정확성 경쟁을 하지만, 생성된 텍스트의 취약한 본질을 다루지 않음
    • 특수 명령을 배워야 하며, 키보드 대체 수단으로는 부족함
  • Aqua Voice의 해결 방식
    • Aqua는 사용자의 말을 그대로 받아 적거나, 명령을 실행하거나, 말한 것을 의도한 글로 세련되게 수정하는 기능 제공
    • 말을 더듬거나 문장을 여러 번 말하는 경우, Aqua는 최종 버전만을 선택하여 텍스트화
  • Aqua Voice의 비전과 기술
    • 더 자연스러운 음성 인식 경험과 협업적인 AI 작문 경험 제공을 목표
    • 실시간으로 모델과 지속적으로 연결되는 스트리밍 방식의 서비스 제공
    • 6개의 모델이 협력하여 의도에 따라 문서를 통역, 해석, 재작성
    • 실시간 정확성을 향상시키기 위해 MoE(Mixture of Experts) 트랜스크립션 사용

Hacker News 의견

  • 멋짐! 몇 가지 피드백:
    • '1000 토큰'이라는 용어는 비기술 사용자에게는 의미가 없으며, 나에게도 거의 의미가 없다. 단순히 내가 얼마나 많은 단어를 말할 수 있는지 알려주면 됨
    • 그 세리프 폰트 LaTeX 오류율 표도 너무 지루하다. 사람들은 'macOS 딕테이션보다 최대 7배 적은 오류'와 같은 화려한 것을 원한다. 비교 표는 아니다.
    • '0.05 단어 오류율'도 사라져야 한다. 그것이 무엇을 의미하는지 설명하고 백분율을 사용해야 한다.
    • '이름, 단어, 사실, 숫자를 잊었나요? Aqua에게 채워달라고 요청하세요.' 이 기능을 끌 수 있으면 좋겠고, 적어도 내가 말하지 않은 내용이 문서에 삽입될 때 명확한 표시가 있었으면 한다. 내가 딕테이션을 할 때는 보통 내가 말한 단어만 페이지에 있길 원한다.
  • 다른 사람들이 말했듯이, 잘했다.
    • 이것은 전화나 시계에서 특히 좋을 것 같다. 키보드 경험이 덜 좋은 곳에서 메모를 할 수 있는 능력에 있어 진정한 게임 체인저 같다.
    • 코드 작성에 사용해 본 적이 있는가? 이것은 IDE/텍스트 편집기 플러그인으로 놀라울 정도로 훌륭할 수 있다.
    • AI로 후회스러운 일을 하지 않는 것을 보니 좋다. 우리가 보는 많은 응용 프로그램들이 끔찍하다. 만든 것은 뛰어나고 저주받은 초콜릿 공장 경험과는 거리가 멀다.
  • 나는 94/95년에 RSI 관련 부상을 입고 이후로 음성 인식을 사용해왔다. 나는 Windows에서 벗어날 수 있는 솔루션을 원한다. Firefox, Thunderbird, VS 코드에서 쉽게 딕테이션할 수 있는 솔루션을 원한다. 가장 중요한 것은 Nuance가 'Select-and-Say'라고 부르는 텍스트 편집/조작 기능이다. 사소한 편집, 새로운 딕테이션으로 문장 교체 등이 가능하고, 대부분의 속삭임 앱처럼 단순히 캡처된 딕테이션보다 훨씬 쉽게 음성을 사용할 수 있게 해준다. 이것을 할 수 있다면 나는 평생 고객이 될 것이다.
    • 다음으로 중요한 것은 문법에 대한 액션 루틴을 작성할 수 있는 능력이다. 나의 선호는 Python이다. 왜냐하면 chatGPT로 코드를 작성할 때 가장 쉬운 대상이기 때문이다. 하지만 다른 언어도 배울 수 있을 것이다(JavaScript 제외, 나는 그것을 싫어한다). 나는 Joel Gould의 'natPython' 패키지를 참고한다. 여기에 원래의 프레젠테이션과 사람들이 구축한 것이 있다.
    • 과거의 교훈이 있다. DragonDictate/NaturallySpeaking의 초기 단계에서, Baker가 Dragon Systems를 운영할 때, 그들은 정기적으로 직원들을 현지 음성 인식 사용자 그룹 회의에 참석시켜 우리에게 무엇이 효과가 있고 무엇이 실패했는지에 대해 이야기하게 했다. 그들은 우리 Crips를 보는 것이 어떤 다른 사용자 커뮤니티보다도 좋은 음성 인식 환경을 구축하는 방법에 대한 정보를 더 많이 줄 것이라는 것을 알았다. 우리는 다른 누구보다도 코너 케이스를 먼저 발견했다. 그들은 몇 가지 좋은 일을 했다. 예를 들어, 몇몇 음성 인식 사용자 그룹 회의를 공간과 직원 시간으로 지원했다.
    • Nuance는 그 교훈을 잊은 것 같다.
    • 어쨌든, 나는 오늘 일을 하려고 했지만, 당신의 발표는 그것을 머리에 쏘아버렸다. :-)
    • [사용후 추가] 정말 인상적이다. 나는 이것에 더 많은 시간을 할애해야 한다는 것이 분명하다. 나는 Naturally Speaking의 경험이 나의 시야를 제한했다는 것을 알 수 있고, 당신은 사용자 인터페이스가 될 수 있는 것에 대해 훨씬 더 넓은 시야를 가지고 있다.
  • 나는 데이터 입력을 위해 이와 같은 것을 원했다. 나는 종종 물건을 측정하면서 손이 가득 차고 메모를 해야 한다. 이것은 표 형식의 데이터를 출력/형식화할 수 있는가?
  • 이것은 정말 대단하다. 누군가 이것을 만들기를 바랐다:
    • 나는 이것에 대해 월 $10를 기꺼이 지불할 것이다. 하지만 정말 원하는 것은 다음 중 하나다:
      • Raycast 플러그인이나 데스크톱 앱으로 이것이 내 환경의 모든 편집 가능한 텍스트 영역과 상호 작용할 수 있게 해주는 것
      • 기존 텍스트/콘텍스트 + 오디오 스트림을 전달하고 전체 문서 업데이트의 심장 박동을 돌려받을 수 있는 API. 그러면 커뮤니티가 Obsidian/VSCode/브라우저 플러그인을 텍스트 입력의 거대한 영역에 대해 구축할 수 있다
    • 오늘 오후에 어쨌든 $10를 낼 것이고, 축하한다!
  • 딕테이션 소프트웨어는 의료 산업에서 매우 중요하다. 모든 의사가 이를 사용하며, 당신의 솔루션과 같은 것은 그들의 작업을 훨씬 더 효율적으로 만들 수 있다. 이 시장 부문을 탐색해 본 적이 있는가?
  • 이것은 놀랍다! 사용하는 것이 매우 만족스럽고, 전사 + 의도의 조합은 엄청난 잠재력을 가지고 있는 것 같다.
    환자 편지 등을 딕테이션하는 데 이것을 사용하고 싶다. 현지 모델/HIPAA 준수는 아직 멀었나?
  • 출시를 축하한다!
    나는 음성보다 텍스트로 작업하는 것이 훨씬 더 나은 동료 신경 다양성을 가진 사람으로서 이 아이디어를 절대적으로 사랑한다. 내 유일한 피드백은... 나는 이것을 더 많은 제어와 함께 실행하고 싶다. 나는 이미 LLM을 로컬에서 실행하고 있고(예: LM Studio), whisper와 같은 것도 실행할 수 있다. 오픈 소스화(또는 소스 코드를 사용할 수 있게 만드는 것)가 상업화 시도와 반대될 수 있다는 것을 이해한다. 그러나 Red Hat과 같은 몇 가지 옵션이 있을 수 있으며, 여기서는 비즈니스 사용에 대해 요금을 부과하고 개인 사용에 대해서는 로컬 실행을 무료로 허용할 수 있다.
    한편으로는 많은 사람들이 혜택을 받고 사용할 수 있는 분야에서 단단한 선두주자 이점을 가지고 있지만, 누군가가 여러 LLM 출력의 여러 계층을 함께 뭉개면 경쟁을 제공할 수 있을 것이다(그러한 프로젝트는 종종 오픈 소스이지만 때때로 덜 '정교하다'). 좋은 거래를 제공한다면 큰 성공의 기회가 있을 수 있다. 행운을 빈다!"
  • 이것은 멋지다, 아마도 구독할 것이다--단지 내 다른 구독을 줄여야 한다--최근에는 너무 많은 유혹적인 AI 제품들이 있다.
  • 명시적으로 말하지는 않지만, 클라우드로 어떤 데이터가 가는지 알고 싶다 - 나는 모든 것을 포함한 음성 녹음이라고 추정한다. 아니면 STT가 기기에서 이루어지는가? 또한 이 데이터에 대한 당신의 개인 정보/보존 정책은 무엇인가? 훌륭한 데모와 멋진 제품이다!