1P by neo 19일전 | ★ favorite | 댓글 1개
  • remarkable2에서 손글씨를 인식하고, 제스처나 화면의 콘텐츠에 따라 반응하여 화면에 다시 쓰는 실험
    • 손글씨와 화면 상호작용을 탐구하는 프로젝트

설정/설치

  • OPENAI_API_KEY와 같은 환경 변수를 설정해야 함.
  • remarkable에 바이너리를 설치하고 실행해야 함.

사용법

  • ghostwriter를 remarkable에서 시작해야 함.
  • 화면에 그림을 그리고, 오른쪽 상단을 터치하여 보조 기능을 활성화할 수 있음.
  • 처리 중에 점이 그려지고, 타이핑되거나 그려진 응답을 볼 수 있음.

상태 / 일지

  • 2024-10-06: 기본 개념 증명 완료. 화면에 다시 그리는 기능이 잘 작동하지 않음.
  • 2024-10-07: 기본 제스처 및 상태 표시 구현.
  • 2024-10-10: 가상 키보드 설정 시작.
  • 2024-10-20: 텍스트 출력 및 기타 모드 도입.
  • 2024-10-21: 바이너리 릴리스 빌드 완료.
  • 2024-10-23: 코드 리팩토링 및 새로운 Anthropic 모델 테스트 계획.
  • 2024-11-02: 도구 제공으로 전환.
  • 2024-11-07: Claude/Anthropic 추가.
  • 2024-11-22: 평가 시스템 스케치 시작.
  • 2024-12-02: 기본 이미지 분할 단계 추가.
  • 2024-12-15: 엔진 통합.
  • 2024-12-18: 시스템 업그레이드 문제 해결.
  • 2024-12-19: 로컬 네트워크 VLM 모드 시도.
  • 2024-12-22: 평가 시스템 구축 시작.
  • 2024-12-25: CLI 단순화 및 확장.
  • 2024-12-28: 사용성 개선.

아이디어

  • 제스처나 콘텐츠로 요청을 트리거.
  • 스크린샷을 비전 모델에 입력하고, 결과를 화면에 출력.
  • 키보드 이벤트 전송 가능.
  • 기본 평가 시스템 구축.
  • 프롬프트 라이브러리 개발.
  • 초기 설정 자동화.
  • 다이어그램 생성 기능 추가.
  • 외부 정보 조회 및 전송 기능 추가.
  • 대화 모드 구현.
  • 네트워크 로컬 VLM 사용 시도.

참고 자료

  • Awesome reMarkable에서 자원 활용.
  • reSnap에서 화면 캡처 기술 적용.
  • rmkit lamp에서 화면 그리기 영감 얻음.
  • resvg로 SVG를 png로 변환.
  • rM-input-devices로 키보드 입력 장치 생성.
  • reMarkableAI에서 OCR→OpenAI→PDF→Device 프로세스 발견.
  • rMAI는 별도의 앱으로 모델 API 서비스로 replicate 사용.
  • Crazy Cow는 텍스트를 펜 스트로크로 변환하는 도구.
Hacker News 의견
  • 프로젝트 작성자임. 프로젝트는 지속적으로 진행 중이며, 시각 모델의 공간 인식 한계가 가장 큰 통찰임

    • https://github.com/awwaiid/ghostwriter/…에서 기본적인 평가 예시를 볼 수 있음
    • 다음 목표는 yaml+shellscript 에이전트 프레임워크/도구로 구축 및 추출을 계속하는 것임
    • 공간 인식을 위한 사전 분할 또는 다른 방법을 계속 탐구하는 것임
    • 많은 점 대신 실제 펜 스트로크를 보내는 reSvg 백엔드를 작성하는 것임
  • 정말 멋짐. reMarkable 태블릿을 위한 앱을 해킹하는 사람들을 보는 것이 좋음

  • reMarkable 태블릿이 너무 잠겨 있지 않았으면 좋겠음

    • 내가 가장 좋아하는 하드웨어 중 하나이며, 더 많은 앱이 있었으면 좋겠음
  • 멋짐

    • 몇 달 동안 이것을 구현해보고 싶었음. 정말 잘했음
  • 정말 멋짐. 이번 주말에 시도해볼 것임

    • PDF를 이메일로 보내고 LLM에 전송하여 할 일을 작성할 때 자동으로 작업을 생성하는 아이디어를 가지고 놀고 있었음
    • 이 프로젝트는 실시간으로 목표를 달성할 수 있는 더 나은 방법을 열어줌
  • PDF 문서 독자를 위해, reMarkable의 11인치 크기가 충분한지 궁금함

    • 나는 13인치 Sony DPT 2세대 버전을 가지고 있으며, 완벽한 시청 경험임
    • 그러나 이러한 프로젝트는 계속해서 reMarkable 제품으로 나를 끌어들임
  • 이 프로젝트를 사랑함. 벡터 확산 모델이 있는데, 모델이 무언가를 그리기로 결정하면 도구 호출을 통해 외주를 맡기는 것이 어떨까?

    • 그런 다음 좌표 범위와 프롬프트를 지정할 수 있음
  • 손글씨 입력과 LLM을 결합한 이 사용 사례는 훌륭함

    • 흐트러진 손글씨를 얼마나 잘 처리하는지, 개인 메모에 대한 미세 조정이 시간이 지남에 따라 인식을 개선할 수 있을지 궁금함
  • 나는 boox 태블릿(전체 안드로이드 태블릿과 eink 화면)을 소유하고 있으며, 이러한 것이 완벽할 것임

    • 5년 후 모바일 하드웨어가 로컬에서 이를 지원할 수 있을지 궁금함
  • 안드로이드 기반 Onyx Boox 전자책 리더에서 이 프로젝트는 어떨까?

    • 가능할까?