9P by xguru 2023-10-23 | favorite | 댓글과 토론
  • 자신들이 제품에 사용하는 멀티모달(이미지+텍스트) 모델의 작은 버전
  • 아키텍처와 훈련 프로세스가 매우 간단함(이미지 인코더 없음)
  • 디지털 에이전트를 위해 설계되어, 임의의 이미지 해상도를 지원하며, 그래프 및 다이어그램에 대한 답변 및 UI 기반 질문에 대해 답변 가능
  • 큰 이미지에 대해서도 100ms 안에 답변 생성 가능할 정도로 빠름
  • 자신들의 유스케이스에 대해 최적화 되었음에도 불구하고, 표준 이미지 이해력 벤치마크 성능도 뛰어남
  • CC-BY-NC 라이센스로 공개