▲GN⁺ 2023-10-27 | parent | ★ favorite | on: Jina AI, 세계 최초 오픈소스 8K 텍스트 임베딩 모델 공개(jina.ai)Hacker News 의견 Jina AI가 오픈소스 8k 텍스트 임베딩 모델을 출시하였습니다. 일부 사용자들은 이 모델의 성능에 의문을 제기하며, 리더보드에서 OpenAI 임베딩 및 기타 14개 기여작보다 낮은 순위를 차지했다고 지적합니다. 8k 컨텍스트 윈도우는 새로운 기능이지만, 특히 512 토큰 제한을 고려할 때, 일부 사용자들은 그 유용성에 의문을 제기합니다. 대부분의 벤치마크가 작은 문서를 다루는 반면, 더 큰 문서에서의 모델 성능에 대한 의구심이 있습니다. 일부 사용자들은 오픈소스 커뮤니티가 "Open"AI와의 격차를 줄이는 것에 대해 흥분을 표현합니다. 새 모델의 임베딩 벡터는 text-embedding-ada-002의 절반 크기(768 대 1536)로, 데이터베이스 공간을 절약하고 조회를 더 빠르게 할 수 있습니다. 8k 토큰 임베딩의 사용 사례에 대한 의문이 제기되며, 일부 사용자들은 이것이 RAG에는 크게 유용하지 않을 수 있다고 제안합니다. 한 사용자는 onnx 사용을 위해 모델을 양자화하여 transformers.js에서 파일 크기를 4배 줄였습니다. OpenAI의 모델과 비교되며, 이는 다국어 지원이 가능하고 다른 언어에서 동일한 의미에 대해 동일한 좌표를 계산합니다. 새로운 llm-embed-jina 플러그인이 LLM 도구에 배포되었으며, 이를 통해 새로운 Jina 모델에 접근할 수 있습니다. 일부 사용자들은 이 작업에 감명을 받았지만, 8k 임베딩을 가장 잘 사용하는 방법에 대해 의문을 제기하며, 이것이 대략적인 유사성 매칭이나 표절 탐지에 유용할 수 있다고 제안합니다. 칩 수출 제한 및 미국/중국 간의 긴장으로 인해, 베를린과 중국에 사무소를 두고 있는 Jina AI의 운영에 대한 우려가 있습니다.
Hacker News 의견