Show GN: EveryText: AI 생성형 이미지에서, 사전 학습 없이 전세계 모든 언어(문자)를 이미지 생성에 반영/표현하는 기술 공개

(fantos-EveryText.hf.space)

5P by arxivgpt 2024-08-29 | ★ favorite | 댓글과 토론

1. 개요

AI 기술의 발전이 가속화되면서, 이미지 생성 분야에서도 혁신적인 진전이 이루어지고 있습니다. 그 중심에 "EveryText"라는 획기적인 기술이 있습니다. 이 기술은 AI 생성형 이미지에서, 사전 학습 없이 전세계 모든 언어(문자)를 이미지 생성에 반영하고 표현할 수 있게 해주는 "TBF('Text by Font') Image Model"을 기반으로 합니다.

2. 배경 및 필요성

최근 AI 이미지 생성 기술의 발전으로, 미드저니V6와 FLUX 같은 플랫폼에서는 사용자가 입력한 텍스트(예: "HELLO WORLD")를 이미지에 가시성과 가독성 있게 출력하는 기능을 지원하고 있습니다. 하지만 이러한 기술은 주로 영어에 국한되어 있었습니다.

이러한 한계를 극복하기 위해 중국의 알리바바 그룹은 중국어, 일본어, 한국어도 지원하는 시스템을 구현했습니다. 이는 전세계 모든 언어를 처리하는 방향으로 기술이 진화할 것이라는 명확한 신호입니다.

3. 현 문제점

기존의 방식에는 여러 가지 한계와 문제점이 있었습니다:

별도 편집 필요: 원하는 텍스트를 이미지에 삽입하기 위해 추가적인 편집 작업이 필요했으며, 이는 시간과 비용 측면에서 비효율적이었습니다.
학습 의존성: AI로 이미지를 생성할 때 특정 텍스트를 가시적으로 표현하기 위해서는 LORA 등을 이용한 이미지 학습이나 라벨링 작업이 필수적이었습니다.
리소스 집약적: 미드저니v6, FLUX, Alibaba 그룹의 접근 방식은 많은 GPU 리소스와 시간을 필요로 했습니다.
제한된 어휘: 사전에 없는 텍스트는 학습할 수 없어 표현이 어려웠습니다.
언어 제한: 영어 외의 전세계 언어를 처리하기 위해서는 방대한 리소스가 필요했습니다.

4. 혁신적 문제 해결 접근 방안

EveryText의 핵심은 "학습"에 대한 새로운 접근 방식입니다. 기존의 방식이 직접적인 학습을 필요로 했다면, EveryText는 "Font"를 활용하여 이 문제를 해결했습니다.

Font as Pre-trained Model: 모든 텍스트는 이미 "Font"에 의해 사실상 라벨링이 포함된 '학습'이 된 상태입니다. EveryText는 이 'Font'를 '학습된 모델링'처럼 사용합니다.
다양성과 미학: 다양한 언어권의 많은 "Font"를 적용함으로써, 글꼴의 풍부함과 가시적인 아름다움을 동시에 달성했습니다.
무제한 표현: "Font"를 "학습이 이미 끝난 모델"로 사용함으로써, 사전에 없는 단어라도 입력/출력이 가능한 어떠한 문자라도 표현이 가능해졌습니다.

5. 서비스 사용법

EveryText는 누구나 무료로 사용할 수 있습니다. 사용 방법은 다음과 같습니다:

Prompt: 이미지 생성을 위한 기본 설명을 입력합니다.
Text for Image Generation: 이미지에 표시될 텍스트를 입력합니다.
Text Position: 이미지 내에서 텍스트의 위치를 선택합니다.
Text Size: 텍스트의 크기를 조정합니다.
Select Font(Option): 원하는 폰트를 선택합니다.
Advanced Settings(Option): 고급 설정을 통해 이미지 생성 과정을 더 세밀하게 조정할 수 있습니다.
"START" 버튼을 클릭하여 이미지를 생성합니다.

6. 경쟁 기술과의 비교(현재까지 소수의 평가자들 주관적 판단 의견임)

-미드저니V6/ Flux: Only English 지원 / 이미지 퀄리티 A+ / 텍스트 표현 및 가독성 A

-AnyText("알리바바 그룹"): 영어, 중국어, 일본어, 한국어 지원/ 이미지 퀄리티 B / 텍스트 인식 및 가독성 C

-EveryText: 전세계 모든 언어(문자) 지원 / 이미지 퀄리티 A / 텍스트 인식 및 가독성 B+ -미드저니V6/ Flux: Only English 지원 / 이미지 퀄리티 A+ / 텍스트 표현 및 가독성 A

EveryText는 전세계 모든 언어를 지원하면서도 높은 이미지 퀄리티와 우수한 텍스트 표현 및 가독성을 제공합니다.

7. 결론

EveryText는 AI 생성형 이미지 기술의 새로운 지평을 열었습니다. 사전 학습 없이 전세계 모든 언어를 이미지에 자연스럽게 통합할 수 있는 이 혁신적인 접근 방식은 글로벌 커뮤니케이션과 창의적 표현의 가능성을 크게 확장시켰습니다. 앞으로 EveryText가 다양한 분야에서 어떻게 활용되고 발전해 나갈지 기대됩니다.