부동산 AI 만들면서 느낀 모델별 차이점

(esto.kr)

많은 기술적인 이야기들이 있지만 오늘은 사용하는 모델에 대해서 얘기해 볼께요.
부동산AI를 만든 이유는 GPT, Claude 모두 부동산관련 답변이 정말 시원치 않습니다.
일단, 과거의 데이터를 현재의 데이터인양 떠들거나, 근거도 없이 부정확한 걸 사실인양 얘기하고 가격정보는 아예 틀리거나 인터넷 뉴스들을 긁어다가 답변을 하였습니다.

부동산 AI를 만들면서 정말 많은 실험을 해 봤습니다.
가장 최상의 모델구성은 당연히 클로드 오퍼스 4.6으로 하는 것이었죠.
근데 그렇게 하면 제가 API사용료를 내주는 꼴이 되어 버리니 이건 사업적으로 가치가 없는 게 됩니다.
그리고 소넷4.6으로 하면 가격은 다운이 되고 오퍼스보다 살짝 떨어지거나 비슷하거나 조금 나은 결과를 보여줄 때도 있었어요. 하지만, 이 역시 비용이 사업화 가능한 수준으로 나오지가 않습니다.

"응답의 품질은 떨어트리지 않으면서, 비용은 최대한 저렴하게" 라는 목표를 세웠습니다.
뭐 아예 안 떨어질 수는 없겠지만 최강의 가성비 세트를 구성하고자 했습니다.

부동산 AI 가 답변하는 3단계 프로세스는 다음과 같습니다.
질문을 분류하고 어떤 데이터를 조회하고 어떤 툴을 사용할 지를 결정하는 1단계(플래너 단계)입니다.
다음으로는 각 데이터조회, 툴적용 등을 하는 2단계(실행단계).
마지막으로 컨설팅단계 입니다.
컨설팅 다음으로는 답변이 검증 및 보정 단계입니다.
(검증 및 보정도 각 요소별로 진행해요. 계산이 틀렸는지, 면책 문구는 잘 되었는지, 비허용정보가 포함되었는지 등등)

컨설팅 단계는 확실히 모델 성능이 가장 크게 좌우되는 단계였습니다. 여긴 뭐 비벼볼 모델이 없었어요.
프리미엄모델만 가능한 영역이며 프리미엄 모델이 아니면 성능은 급격히 하락했어요.
(오퍼스, 소넷, GPT5.4 정도만이 준수한 결과물을 만들어 줬습니다.)
이중 GPT5.4 정도가 가장 가성비 높은 모델입니다.
소넷의 절반 가격정도에 더 빠른 응답과 더 적은 토큰을 소모했어요.
물론 성능은 비등비등했으니 다른 요인으로 인해 GPT5.4로 골랐습니다.

다음으로 플래너 단계인데요.
여기는 그나마 컨설팅보다는 모델 성능을 좀 덜 타지만 그래도 좀 타는 부분이라
Gemini 3.1 Flash Lite
를 사용했어요. 소넷, 지피티와 거의 유사한 성능을 보였거든요.

아! 그리고 플래너 앞단계로 분류 단계가 있습니다.
여기서는 Grok 4.1 Fast 를 사용했습니다.
일단 이 단계에서는 프리미엄 모델들과 거의 동일 성능을 발휘했어요.
가격은 뭐 거의 공짜수준에 근접할 정도 였구요.
이 단계는 유저의 질문에 대해서 모호함이 있을 경우 확인하고 관련 분야를 분류하는 좀 기계적인 부분이라
멍청하지만 말은 참 잘 듯는 그록이 매우매우 적은 비용으로 잘 해냈습니다.

다만, 그록은 플래너, 컨설팅 단계에서는 뭐 거의 쓰레기 수준의 성능을 보여서 거기서만 쓰도록 했습니다.
말을 잘 듣는 모델이다 보니 실행단계에서 툴, 데이터 조회하는 부분에서도 사용했어요.
다양한 모델로 테스트 해봤을 때 이 두가지 업무 영역에서는 딱히 떨어지는 부분이 없습니다.

그리고 Qwan, MiniMax 등 그 밖에 다양한 중국 모델들도 다 테스트해봤는데요.
응답에 중국어, 일본어 때로는 아랍어까지 혼입되는 문제가 발생했고 저렴한 대신 성능은 떨어졌어요.
이럴 경우 응답의 신뢰다고 급하락하기 때문에 보정 절차를 거쳐야 하는데
보정 절차 때문에 응답속도는 더 느려지고, 언제 혼입될 지 모르니 모든 응답을 검증해야 하는 상황이라 사실 쓸 수 있는 상태가 아니더라구요. 해외에서는 중국모델들이 인기가 높아지고 있는데 한국어 이용자에게는 사용이 불가능한 수준이라고 판단됩니다.

kravi 3달전 [-]

이런식으로 오케스트레이션이 되는건 신기하네요
정확한 정보전달이 중요한 서비스는 결과물 검증용 계층을 따로 추가할수도 있겠어요

답변달기

kurthong 3달전 [-]

서비스들이 굉장히 구체적이고 퀄리티가 좋은 느낌입니다. 로컬llm 테스트시 어떤 파이프라인으로 기획하셨는지가 좀 궁금하네요. 저도 기획했던 앱들을 rag나 lora로 파인튜닝한 llm을 써보려고 했다가 이미 업데이트가 적극적으로 잘 되고 있는 데이터들에 대해선 rag 같은것보다 데이터는 파이썬 같은 걸로 크롤링하고 봇은 그 크롤링 결과만 몇가지 형태의 파이프라인을 통해 대답하게 하니 결과가 훨씬 좋았던 경험이 있어서요

답변달기

yaa30 3달전 [-]

ai에게 너무 의존적인 형태로 맡기려다보니 어려워지는 느낌 아닐까요?

답변달기

부동산 AI 만들면서 느낀 모델별 차이점

함께 보면 좋은 글 β

댓글과 토론