2P by runai 12시간전 | ★ favorite | 댓글 2개

많은 기술적인 이야기들이 있지만 오늘은 사용하는 모델에 대해서 얘기해 볼께요.
부동산AI를 만든 이유는 GPT, Claude 모두 부동산관련 답변이 정말 시원치 않습니다.
일단, 과거의 데이터를 현재의 데이터인양 떠들거나, 근거도 없이 부정확한 걸 사실인양 얘기하고 가격정보는 아예 틀리거나 인터넷 뉴스들을 긁어다가 답변을 하였습니다.

부동산 AI를 만들면서 정말 많은 실험을 해 봤습니다.
가장 최상의 모델구성은 당연히 클로드 오퍼스 4.6으로 하는 것이었죠.
근데 그렇게 하면 제가 API사용료를 내주는 꼴이 되어 버리니 이건 사업적으로 가치가 없는 게 됩니다.
그리고 소넷4.6으로 하면 가격은 다운이 되고 오퍼스보다 살짝 떨어지거나 비슷하거나 조금 나은 결과를 보여줄 때도 있었어요. 하지만, 이 역시 비용이 사업화 가능한 수준으로 나오지가 않습니다.

"응답의 품질은 떨어트리지 않으면서, 비용은 최대한 저렴하게" 라는 목표를 세웠습니다.
뭐 아예 안 떨어질 수는 없겠지만 최강의 가성비 세트를 구성하고자 했습니다.

부동산 AI 가 답변하는 3단계 프로세스는 다음과 같습니다.
질문을 분류하고 어떤 데이터를 조회하고 어떤 툴을 사용할 지를 결정하는 1단계(플래너 단계)입니다.
다음으로는 각 데이터조회, 툴적용 등을 하는 2단계(실행단계).
마지막으로 컨설팅단계 입니다.
컨설팅 다음으로는 답변이 검증 및 보정 단계입니다.
(검증 및 보정도 각 요소별로 진행해요. 계산이 틀렸는지, 면책 문구는 잘 되었는지, 비허용정보가 포함되었는지 등등)

컨설팅 단계는 확실히 모델 성능이 가장 크게 좌우되는 단계였습니다. 여긴 뭐 비벼볼 모델이 없었어요.
프리미엄모델만 가능한 영역이며 프리미엄 모델이 아니면 성능은 급격히 하락했어요.
(오퍼스, 소넷, GPT5.4 정도만이 준수한 결과물을 만들어 줬습니다.)
이중 GPT5.4 정도가 가장 가성비 높은 모델입니다.
소넷의 절반 가격정도에 더 빠른 응답과 더 적은 토큰을 소모했어요.
물론 성능은 비등비등했으니 다른 요인으로 인해 GPT5.4로 골랐습니다.

다음으로 플래너 단계인데요.
여기는 그나마 컨설팅보다는 모델 성능을 좀 덜 타지만 그래도 좀 타는 부분이라
Gemini 3.1 Flash Lite
를 사용했어요. 소넷, 지피티와 거의 유사한 성능을 보였거든요.

아! 그리고 플래너 앞단계로 분류 단계가 있습니다.
여기서는 Grok 4.1 Fast 를 사용했습니다.
일단 이 단계에서는 프리미엄 모델들과 거의 동일 성능을 발휘했어요.
가격은 뭐 거의 공짜수준에 근접할 정도 였구요.
이 단계는 유저의 질문에 대해서 모호함이 있을 경우 확인하고 관련 분야를 분류하는 좀 기계적인 부분이라
멍청하지만 말은 참 잘 듯는 그록이 매우매우 적은 비용으로 잘 해냈습니다.

다만, 그록은 플래너, 컨설팅 단계에서는 뭐 거의 쓰레기 수준의 성능을 보여서 거기서만 쓰도록 했습니다.
말을 잘 듣는 모델이다 보니 실행단계에서 툴, 데이터 조회하는 부분에서도 사용했어요.
다양한 모델로 테스트 해봤을 때 이 두가지 업무 영역에서는 딱히 떨어지는 부분이 없습니다.

그리고 Qwan, MiniMax 등 그 밖에 다양한 중국 모델들도 다 테스트해봤는데요.
응답에 중국어, 일본어 때로는 아랍어까지 혼입되는 문제가 발생했고 저렴한 대신 성능은 떨어졌어요.
이럴 경우 응답의 신뢰다고 급하락하기 때문에 보정 절차를 거쳐야 하는데
보정 절차 때문에 응답속도는 더 느려지고, 언제 혼입될 지 모르니 모든 응답을 검증해야 하는 상황이라 사실 쓸 수 있는 상태가 아니더라구요. 해외에서는 중국모델들이 인기가 높아지고 있는데 한국어 이용자에게는 사용이 불가능한 수준이라고 판단됩니다.

서비스들이 굉장히 구체적이고 퀄리티가 좋은 느낌입니다. 로컬llm 테스트시 어떤 파이프라인으로 기획하셨는지가 좀 궁금하네요. 저도 기획했던 앱들을 rag나 lora로 파인튜닝한 llm을 써보려고 했다가 이미 업데이트가 적극적으로 잘 되고 있는 데이터들에 대해선 rag 같은것보다 데이터는 파이썬 같은 걸로 크롤링하고 봇은 그 크롤링 결과만 몇가지 형태의 파이프라인을 통해 대답하게 하니 결과가 훨씬 좋았던 경험이 있어서요

ai에게 너무 의존적인 형태로 맡기려다보니 어려워지는 느낌 아닐까요?