GN⁺: 리마커블2를 비전-LLMs 인터페이스로 활용하는 Ghostwriter
(github.com/awwaiid)- remarkable2에서 손글씨를 인식하고, 제스처나 화면의 콘텐츠에 따라 반응하여 화면에 다시 쓰는 실험
- 손글씨와 화면 상호작용을 탐구하는 프로젝트
설정/설치
-
OPENAI_API_KEY
와 같은 환경 변수를 설정해야 함. - remarkable에 바이너리를 설치하고 실행해야 함.
사용법
-
ghostwriter
를 remarkable에서 시작해야 함. - 화면에 그림을 그리고, 오른쪽 상단을 터치하여 보조 기능을 활성화할 수 있음.
- 처리 중에 점이 그려지고, 타이핑되거나 그려진 응답을 볼 수 있음.
상태 / 일지
- 2024-10-06: 기본 개념 증명 완료. 화면에 다시 그리는 기능이 잘 작동하지 않음.
- 2024-10-07: 기본 제스처 및 상태 표시 구현.
- 2024-10-10: 가상 키보드 설정 시작.
- 2024-10-20: 텍스트 출력 및 기타 모드 도입.
- 2024-10-21: 바이너리 릴리스 빌드 완료.
- 2024-10-23: 코드 리팩토링 및 새로운 Anthropic 모델 테스트 계획.
- 2024-11-02: 도구 제공으로 전환.
- 2024-11-07: Claude/Anthropic 추가.
- 2024-11-22: 평가 시스템 스케치 시작.
- 2024-12-02: 기본 이미지 분할 단계 추가.
- 2024-12-15: 엔진 통합.
- 2024-12-18: 시스템 업그레이드 문제 해결.
- 2024-12-19: 로컬 네트워크 VLM 모드 시도.
- 2024-12-22: 평가 시스템 구축 시작.
- 2024-12-25: CLI 단순화 및 확장.
- 2024-12-28: 사용성 개선.
아이디어
- 제스처나 콘텐츠로 요청을 트리거.
- 스크린샷을 비전 모델에 입력하고, 결과를 화면에 출력.
- 키보드 이벤트 전송 가능.
- 기본 평가 시스템 구축.
- 프롬프트 라이브러리 개발.
- 초기 설정 자동화.
- 다이어그램 생성 기능 추가.
- 외부 정보 조회 및 전송 기능 추가.
- 대화 모드 구현.
- 네트워크 로컬 VLM 사용 시도.
참고 자료
- Awesome reMarkable에서 자원 활용.
- reSnap에서 화면 캡처 기술 적용.
- rmkit lamp에서 화면 그리기 영감 얻음.
- resvg로 SVG를 png로 변환.
- rM-input-devices로 키보드 입력 장치 생성.
- reMarkableAI에서 OCR→OpenAI→PDF→Device 프로세스 발견.
- rMAI는 별도의 앱으로 모델 API 서비스로 replicate 사용.
- Crazy Cow는 텍스트를 펜 스트로크로 변환하는 도구.
Hacker News 의견
-
프로젝트 작성자임. 프로젝트는 지속적으로 진행 중이며, 시각 모델의 공간 인식 한계가 가장 큰 통찰임
- https://github.com/awwaiid/ghostwriter/…에서 기본적인 평가 예시를 볼 수 있음
- 다음 목표는 yaml+shellscript 에이전트 프레임워크/도구로 구축 및 추출을 계속하는 것임
- 공간 인식을 위한 사전 분할 또는 다른 방법을 계속 탐구하는 것임
- 많은 점 대신 실제 펜 스트로크를 보내는 reSvg 백엔드를 작성하는 것임
-
정말 멋짐. reMarkable 태블릿을 위한 앱을 해킹하는 사람들을 보는 것이 좋음
- 나도 reMarkable을 위한 작은 앱을 만들었고, 얼마 전에 여기에서 공유했음: https://digest.ferrucc.io/
-
reMarkable 태블릿이 너무 잠겨 있지 않았으면 좋겠음
- 내가 가장 좋아하는 하드웨어 중 하나이며, 더 많은 앱이 있었으면 좋겠음
-
멋짐
- 몇 달 동안 이것을 구현해보고 싶었음. 정말 잘했음
-
정말 멋짐. 이번 주말에 시도해볼 것임
- PDF를 이메일로 보내고 LLM에 전송하여 할 일을 작성할 때 자동으로 작업을 생성하는 아이디어를 가지고 놀고 있었음
- 이 프로젝트는 실시간으로 목표를 달성할 수 있는 더 나은 방법을 열어줌
-
PDF 문서 독자를 위해, reMarkable의 11인치 크기가 충분한지 궁금함
- 나는 13인치 Sony DPT 2세대 버전을 가지고 있으며, 완벽한 시청 경험임
- 그러나 이러한 프로젝트는 계속해서 reMarkable 제품으로 나를 끌어들임
-
이 프로젝트를 사랑함. 벡터 확산 모델이 있는데, 모델이 무언가를 그리기로 결정하면 도구 호출을 통해 외주를 맡기는 것이 어떨까?
- 그런 다음 좌표 범위와 프롬프트를 지정할 수 있음
-
손글씨 입력과 LLM을 결합한 이 사용 사례는 훌륭함
- 흐트러진 손글씨를 얼마나 잘 처리하는지, 개인 메모에 대한 미세 조정이 시간이 지남에 따라 인식을 개선할 수 있을지 궁금함
-
나는 boox 태블릿(전체 안드로이드 태블릿과 eink 화면)을 소유하고 있으며, 이러한 것이 완벽할 것임
- 5년 후 모바일 하드웨어가 로컬에서 이를 지원할 수 있을지 궁금함
-
안드로이드 기반 Onyx Boox 전자책 리더에서 이 프로젝트는 어떨까?
- 가능할까?