리마커블2를 비전-LLMs 인터페이스로 활용하는 Ghostwriter

(github.com/awwaiid)

1P by GN⁺ 2025-02-10 | ★ favorite | 댓글 1개

remarkable2에서 손글씨를 인식하고, 제스처나 화면의 콘텐츠에 따라 반응하여 화면에 다시 쓰는 실험
- 손글씨와 화면 상호작용을 탐구하는 프로젝트

설정/설치

OPENAI_API_KEY와 같은 환경 변수를 설정해야 함.
remarkable에 바이너리를 설치하고 실행해야 함.

사용법

ghostwriter를 remarkable에서 시작해야 함.
화면에 그림을 그리고, 오른쪽 상단을 터치하여 보조 기능을 활성화할 수 있음.
처리 중에 점이 그려지고, 타이핑되거나 그려진 응답을 볼 수 있음.

상태 / 일지

2024-10-06: 기본 개념 증명 완료. 화면에 다시 그리는 기능이 잘 작동하지 않음.
2024-10-07: 기본 제스처 및 상태 표시 구현.
2024-10-10: 가상 키보드 설정 시작.
2024-10-20: 텍스트 출력 및 기타 모드 도입.
2024-10-21: 바이너리 릴리스 빌드 완료.
2024-10-23: 코드 리팩토링 및 새로운 Anthropic 모델 테스트 계획.
2024-11-02: 도구 제공으로 전환.
2024-11-07: Claude/Anthropic 추가.
2024-11-22: 평가 시스템 스케치 시작.
2024-12-02: 기본 이미지 분할 단계 추가.
2024-12-15: 엔진 통합.
2024-12-18: 시스템 업그레이드 문제 해결.
2024-12-19: 로컬 네트워크 VLM 모드 시도.
2024-12-22: 평가 시스템 구축 시작.
2024-12-25: CLI 단순화 및 확장.
2024-12-28: 사용성 개선.

아이디어

제스처나 콘텐츠로 요청을 트리거.
스크린샷을 비전 모델에 입력하고, 결과를 화면에 출력.
키보드 이벤트 전송 가능.
기본 평가 시스템 구축.
프롬프트 라이브러리 개발.
초기 설정 자동화.
다이어그램 생성 기능 추가.
외부 정보 조회 및 전송 기능 추가.
대화 모드 구현.
네트워크 로컬 VLM 사용 시도.

참고 자료

Awesome reMarkable에서 자원 활용.
reSnap에서 화면 캡처 기술 적용.
rmkit lamp에서 화면 그리기 영감 얻음.
resvg로 SVG를 png로 변환.
rM-input-devices로 키보드 입력 장치 생성.
reMarkableAI에서 OCR→OpenAI→PDF→Device 프로세스 발견.
rMAI는 별도의 앱으로 모델 API 서비스로 replicate 사용.
Crazy Cow는 텍스트를 펜 스트로크로 변환하는 도구.

GN⁺ 2025-02-10 [-]

Hacker News 의견

프로젝트 작성자임. 프로젝트는 지속적으로 진행 중이며, 시각 모델의 공간 인식 한계가 가장 큰 통찰임
- https://github.com/awwaiid/ghostwriter/blob/main/evaluation_results/2024-12-29_21-05-47/results.md에서 기본적인 평가 예시를 볼 수 있음
- 다음 목표는 yaml+shellscript 에이전트 프레임워크/도구로 구축 및 추출을 계속하는 것임
- 공간 인식을 위한 사전 분할 또는 다른 방법을 계속 탐구하는 것임
- 많은 점 대신 실제 펜 스트로크를 보내는 reSvg 백엔드를 작성하는 것임
정말 멋짐. reMarkable 태블릿을 위한 앱을 해킹하는 사람들을 보는 것이 좋음
- 나도 reMarkable을 위한 작은 앱을 만들었고, 얼마 전에 여기에서 공유했음: https://digest.ferrucc.io/
reMarkable 태블릿이 너무 잠겨 있지 않았으면 좋겠음
- 내가 가장 좋아하는 하드웨어 중 하나이며, 더 많은 앱이 있었으면 좋겠음
멋짐
- 몇 달 동안 이것을 구현해보고 싶었음. 정말 잘했음
정말 멋짐. 이번 주말에 시도해볼 것임
- PDF를 이메일로 보내고 LLM에 전송하여 할 일을 작성할 때 자동으로 작업을 생성하는 아이디어를 가지고 놀고 있었음
- 이 프로젝트는 실시간으로 목표를 달성할 수 있는 더 나은 방법을 열어줌
PDF 문서 독자를 위해, reMarkable의 11인치 크기가 충분한지 궁금함
- 나는 13인치 Sony DPT 2세대 버전을 가지고 있으며, 완벽한 시청 경험임
- 그러나 이러한 프로젝트는 계속해서 reMarkable 제품으로 나를 끌어들임
이 프로젝트를 사랑함. 벡터 확산 모델이 있는데, 모델이 무언가를 그리기로 결정하면 도구 호출을 통해 외주를 맡기는 것이 어떨까?
- 그런 다음 좌표 범위와 프롬프트를 지정할 수 있음
손글씨 입력과 LLM을 결합한 이 사용 사례는 훌륭함
- 흐트러진 손글씨를 얼마나 잘 처리하는지, 개인 메모에 대한 미세 조정이 시간이 지남에 따라 인식을 개선할 수 있을지 궁금함
나는 boox 태블릿(전체 안드로이드 태블릿과 eink 화면)을 소유하고 있으며, 이러한 것이 완벽할 것임
- 5년 후 모바일 하드웨어가 로컬에서 이를 지원할 수 있을지 궁금함
안드로이드 기반 Onyx Boox 전자책 리더에서 이 프로젝트는 어떨까?
- 가능할까?

답변달기

리마커블2를 비전-LLMs 인터페이스로 활용하는 Ghostwriter

설정/설치

사용법

상태 / 일지

아이디어

참고 자료

함께 보면 좋은 글 β

댓글과 토론

Hacker News 의견