40P by tominam2 20일전 | favorite | 댓글 13개

자신의 컴퓨터에서 제한없이 한영-영한 AI 번역이 가능합니다.

  1. 일반 기계번역에 비해 품질이 우수합니다.
  2. txt와 epub파일 번역이 가능합니다.
  3. 번역문(원문) 파일과 번역문 파일, 이렇게 두가지 파일로 출력됩니다. 번역이 이상할 경우 원문과 바로 비교할수 있습니다.
  4. 사용이 아주 쉽습니다. 번역이 필요한 파일들을 드래그한 후 번역 실행하기 버튼만 클릭하면 됩니다. 알아서 한↔영 으로 번역해 줍니다.
  5. 다른 AI모델로 교체가 가능합니다. 현재는 가성비가 좋은 NHNDQ를 사용합니다.

Huggingface 모델 실행부터 venv 구축. 웹서비스 구현까지 완결성 있는 예제여서 도움이 되었습니다. 공유해주셔서 감사합니다

도움이 될수 있었다니 너무나 기분이 좋습니다. 제가 더 감사합니다.

안녕하세요 다름이 아니라 설치도중 cmd를 종료했는데, 그 뒤론 폴더를 지우고 새로 설치해도 설치가 진행이 안되네요,,,해결 방법이 있을까요?ㅜㅜ

그럼요. 해결해야죠.
그런데 일단 어떻게 안되는 건지 상태를 좀 알아야 해요.

https://github.com/vEduardovich/dodari/issues
위 도다리 깃험에서 new issues 버튼을 눌러 새로 이슈를 만드신후

어떻게 안되는건지 스샷이나 상황들은 조금만 더 자세히 설명해주실 수 있을까요?
꼭 해결하겠습니다

우와, 대단하십니다.
저는 deepL을 쓰고 있기는 한데 비교해가면서 찬찬히 확인해볼께요.
특히, 영문 문학의 텍스트들을 얼른 비교해보고 싶네요.

말씀해 주신 부분이 현재 제가 느끼는 가장 아쉬운 부분입니다.
지금 도다리에서 사용중인 모델은 NHNDQ모델로 facebook-nllb라는 200국어 다번역 모델을 한국어에 특화시켜 파인튜닝한 모델입니다. 그런데 이게 구글 번역보단 좋지만 deepL에 비해서는 많이 떨어집니다.

해결을 위해 여러 모델들을 테스트하다 한국어 0티어라는 yanolja-eeve모델을 돌려봤는데 깜짝 놀랄 정도로 좋았습니다. 제 체감으로는 deepL의 80~90%는 되는 거 같았어요.

그런데 이 모델을 사용하기 위해서는 사용자 컴퓨터의 vram이 23이상이어야 합니다. 또 번역속도가 몇십배 느려지기 때문에 가속을 위해 vllm 기술을 적용해야합니다. 이러면 속도는 상당부분 빨라지지만 리눅스 os가 꼭 필요하지요. '4090과 리눅스 os를 운용하는 개발자'만 야놀자 모델을 돌려볼수 있는거에요.

지금 고민하고 있는 부분이에요. 아쉽습니다.

더 이상의 설명이 必要韓紙?

NHNDQ의 부모 모델이 facebook-nllb라는 200개 국어 다번역 모델이에요.
그러다보니 그런 외계어를 가끔합니다.

아직 한국어 번역 품질이 조금 떨어지는 부분을 가지고 프리게이트 사건의 주인공 도더리의 닉네임을 따서 제품 이름을 지은 것 같았으므로, 그 사건에서 나온 희대의 번역기 사용 실수 “必要韓紙”를 언급하지 않을 수 없었습니다.

뭔가 복잡한 사건이 있었나보네요. 읽어도 잘 이해를 못하겠습니다ㅠ

도다리라는 이름은 mixtral-7bx8 모델과의 대화로 만들었습니다.
처음에 ai는 '언어다리'라는 이름을 추천해줬는데 저는 뭔가 그리기 쉬운 확실한 이미지가 필요해서 '도다리'는 어떠냐고 재미삼아 물었습니다. 스스로도 뚱딴지 같다고 생각했으니까요.

근데 ai는 도다리가 '도움을 주는 다리'라는 뜻으로 아주 좋다는 답변을 주었습니다. 생각지도 못했던 해석이라 참신하다고 생각했습니다. 그렇게 나온 이름이 도다리입니다

꽤나 오래된 사건인데, 당시 한국 인터넷 커뮤니티에서는 나름 유명한 사건이었습니다.
대충 정리하면 다음과 같습니다.

  1. 어떤 네이버 카페의 운영자 도더리가 한정판 일본 음악 CD를 7만원에 공동구매한다는 공지를 올림
  2. 이후 1차 공동구매 참여자 명단이 올라왔는데, 이름이나 주소가 뭔가 이상하여 사람들이 의심하게 됨
  3. 어느 카페 가입자가 해당 CD는 한정판도 아니고 가격도 3만원대에 불과하다는 걸 밝혀내어 따지자 도더리가 그를 카페에서 추방하면서 일이 커짐
  4. 도더리가 일본 회사와 주고받은 메일이라며 공개한 메일 내용에서 “必要韓紙”와 같은 어이없는 번역기 사용 오류가 드러나면서 외부인에게도 유명세를 타게 됨
  5. 이후 드러난 바에 따르면 도더리는 소위 허언증이 심한 사람으로, 그가 인터넷에 올린 대다수의 자기 행적은 말도 안 되는 허세와 거짓말로 점철되어 있었음

그나저나 거대언어모델이 가끔 생각지도 못한 해석을 내놓는데 그게 그럴싸한 경우는 저도 가끔 겪어봤습니다.
사람들과의 대화 속에서 자기 혼자서는 미처 생각하지 못한 부분을 짚게 되는 현상을 이제는 기계와의 대화에서도 경험하는 것 같습니다.

세상에나. 근데 잡혀가진 않았나보네요.
개인적으로 chatGPT는 샌님같아서 재미가 없는데 Mixtral은 검열이 없어서 그런지 대화가 아주 흥미롭습니다

위키 내용에 따르면 고소까지 당했다가 싹싹 빌었는지 선처받아 그냥 넘어갔다네요. 고소당할 당시 그의 신분은 공익근무요원이었다고.

저는 개인 PC 성능상 아직 로컬 LLM을 직접 써본 적은 없네요. GPT-4 정도만 사용하고 있는데, Claude-3는 추가 구독해볼까 싶습니다.