GN⁺: macOSPilot - macOS를 위한 음성+비젼 CoPilot
(github.com/elfvingralf)- macOS의 모든 어플리케이션에서 사용가능한, 음성과 비젼을 이용한 AI 어시스턴트
- 단축키를 누르고 음성으로 질문하면, 현재 컨텍스트 기반으로 음성 답변을 출력
- 현재 윈도우의 스크린샷을 만들어서 OpenAI GPT Vision에게 보냄
- 질문은 OpenAI Whisper API를 이용해서 받아쓰기 한후 텍스트로 함께 보내짐
- 받아온 텍스트 답변을 OpenAI TTS를 이용해서 음성으로 변환하여 출력
- NodeJS/Electron 으로 개발함
- 기본 단축키는 Cmd + Shift + '
Hacker News 의견
-
"OSX" 대신 "macOS"라는 용어를 프롬프트에서 사용하는 것이 더 나은지, 아니면 초기에 선택한 것을 크게 고민하지 않았는지에 대한 질문.
- 게시자는 비디오를 훑어보며 궁금증을 표함.
- 관련 코드 링크 제공.
-
응답으로 TTS 대신 스트리밍 텍스트 옵션을 추가할 것을 제안.
- 음성 명령 대신 텍스트를 사용하는 것도 고려해볼 것.
- 비슷한 종류의 조수를 오랫동안 시도해본 경험을 공유하며, 디스코드에서 연락하자고 제안.
-
리눅스 설정에 대한 유사한 스크립트를 작성했다고 언급.
- XFCE 키보드 단축키와 연결.
- 스크립트 사용 빈도가 낮다고 언급.
-
OpenAI API 사용 시 지출 한도를 설정할 것을 권장.
- 텍스트 모델과 비전 모델의 비용 차이를 빠르게 알게 될 수 있음을 경고.
- 가격이 비슷하다는 것을 확인하고 긍정적인 평가.
-
프로젝트에 대한 긍정적인 반응.
- 스크린샷이 혼란스러운 부분을 명확히 하는 데 도움이 될 것 같다고 언급.
- 사용하지 않을 때 창을 숨길 수 있는 방법에 대한 질문.
-
프로젝트를 "open"AI가 아닌 로컬 LLMs와 함께 작동하도록 만들 계획이 있는지 질문.
-
터미널 자체에 통합하여 무언가를 구축하고 싶다는 의견.
- 스크린샷을 피하고 터미널에서 직접 작업하는 것이 간단하다고 언급.
- 터미널에서 AI에게 명령을 내리는 형식의 예시 코드 제공.
- 바쁜 일상 속에서 시간을 내기 어렵다는 토로.
-
"macOSpilot이 NodeJS/Electron을 사용한다"는 정보에 대한 부정적인 반응.
-
디지털 오디오 워크스테이션 Ableton Live와 함께 사용해본 경험 공유.
- 매우 유용하고 시간을 절약해줄 것 같다는 긍정적인 평가.
- 상호작용 비디오 링크 제공.
- 부정적인 댓글에 대한 의문 제기.
-
ls
명령의 결과를 기다리는 동안 생산성에 대한 상상을 공유.