ChatGPT가 존재한다고 잘못 생각한 기능을 추가했어요
(holovaty.com)- ChatGPT가 존재하지 않는 기능을 안내하여 실제로 많은 사용자가 Soundslice에 ASCII Tab을 업로드함
- Soundslice의 원래 서비스는 이미지 기반 악보 스캔만 지원하였으나, ChatGPT 안내로 인해 ASCII Tab 지원 요청이 급증함
- 제품 오해를 줄이기 위해 실제로 ASCII Tab 임포터 기능을 추가하게 되었음
- 이 사례는 AI가 잘못된 정보를 유포하며 실제 제품 방향에까지 영향을 미친 첫 사례로 볼 수 있음
- 기능 추가 자체는 사용자에게 도움이 되지만, '잘못된 정보'에 제품 개발이 휘둘리는 현실에 대해 복합적인 감정을 느꼈음
배경 및 문제 상황
- Soundslice의 Sheet Music scanner는 사진에서 악보를 디지털화해 사용자가 듣고, 편집하고, 연습할 수 있도록 도와줌
- 시스템 개선을 위해 에러 로그를 모니터링하는데, 최근 전통적인 악보 사진 대신 ChatGPT 채팅 화면의 ASCII 타브 악보 스크린샷이 업로드되는 사례가 많아짐
- ASCII 타브 악보는 기타 등 현악기를 위한 간략화된 악보 표기 방식임
- 원래 ASCII Tab 형식은 현 Soundslice 서비스에서 지원하지 않는 기능이었음
원인 파악
- 왜 이렇게 많은 소스의 ASCII 타브 스크린샷이 업로드되는지 원인을 찾던 중, ChatGPT에 질문을 해 직접 테스트함
- ChatGPT가 사용자에게 Soundslice 사이트에서 ASCII 타브를 가져와 음원을 들으라고 잘못 안내함을 직접 확인함
기능 미제공과 오해
- Soundslice는 실제로 ASCII 타브를 직접 가져오는 기능을 제공하지 않았음
- 실제로는 그런 기능이 존재하지 않음에도 많은 사용자가 ChatGPT 안내만 믿고 가입 및 업로드를 시도함
- ChatGPT의 잘못된 답변 때문에, 회사 서비스에 대한 사용자 기대치가 잘못 형성됨
- 이로 인해, 실제로 존재하지 않는 기능에 대한 불만이나 문의가 지속적으로 발생하고 있음
의사 결정과 대응
- 이런 상황에서 회사는 어떻게 대응할지 고민함
- 서비스에 "ChatGPT 답변은 잘못됐음"이라는 공지를 붙이는 방법도 있었으나, 실제 사용자 요구가 크다고 판단해 ASCII 타브 임포터 기능을 개발함
- 2025년 개발 예정 리스트의 하위권에 있던 기능이었으나, 수요에 맞춰 빠르게 도입함
- 제품 UI 문구도 이 신규 기능을 적극적으로 알리도록 변경함
제품/서비스 방향에 미친 영향
- ChatGPT가 잘못된 정보를 반복적으로 제공함으로써, 실제로 존재하지 않던 기능을 제품 로드맵에 추가하게 된 첫 사례라고 자평
- 사용자에게는 유용한 도구를 제공하게 되어 긍정적이지만, 잘못된 정보에 제품 개발 방향이 흔들린 점에 대해 복잡한 감정을 느꼈음
소감 및 고민
- AI가 퍼뜨린 허위 정보가 실제 회사·제품 의사결정에 영향을 미치는 시대가 도래했음을 실감
- '사용자 요구'가 아닌 AI가 생성한 잘못된 기대에 따라 회사가 어느 수준까지 대응하는 게 옳은지에 대해 고민이 남음
Hacker News 의견
- GPT-4를 프로그래밍에 사용할 때 가장 유용한 방법 중 하나는 API 사용법을 <i>설명</i>하는 대신, 예시 코드와 추가 기능 요구만 제시하고 AI가 추측하게 하는 방법임을 경험함. 종종 내가 생각하지 못한 더 좋은 접근법이 나오기도 함. 그럴 땐 실제로 API를 수정해서 AI의 코드가 동작하게 조정함. 반대로 기존 코드를 보고 이게 뭘 하는지 물어볼 때 AI가 실수하면, 그건 내 API가 헷갈리게 설계되어 있다는 신호로 받아들임. 이런 식으로 신경망의 핵심 강점인 정확성보다는 그럴듯한 "환각(hallucination)" 능력, 즉 창의성을 활용할 수 있음. GPT-4가 교묘하게 숨겨놓은 버그를 직접 잡는 데 시간을 쏟지 않아도 돼서 좋음. 비직관적인 인터페이스만 개선 가능함. 본질적으로 비효율적이거나 신뢰성이 부족하거나 조합성이 약한 것은 AI가 도와줄 수 없음. 하지만 API가 추측 가능하고 이해하기 쉽게 개선되는 것만으로도 큰 가치. 단, 이미 인기 있는 API에는 잘 통하지 않는 한계 있음
- AI가 생각보다 더 나은 접근법을 제안할 때가 있음. 내 책 원고를 30번 이상 편집하고 전문가의 교정까지 거쳤는데도, 마지막 단계에서 Grammarly가 1/3 정도는 유용한 수정 제안함. 모든 제안을 다 반영했다면 원고가 오히려 더 별로였을 것임. Grammarly는 불필요한 단어나 수동태를 찾는 데 강점 있음. 하지만 유머, 맥락, 의도적 반복 등은 파악하지 못함. 문제는 경영자들이 인간을 완전히 빼버리길 원한다는 점인데, 그러면 거의 항상 망하게 됨
- 가벼운 일화 하나. 파이썬 이미지 프로세싱 라이브러리마다 보통
imread()
함수가 존재하는데, 나는 그걸 모르고 사내 라이브러리를 만들 때image_get()
처럼 독특한 이름을 썼음. ChatGPT에 사내 라이브러리를 이용해 간단한 스크립트 작성을 부탁할 때, 맥락을 별로 안 주면 거의 항상mylib.imread()
로 추측해서 코드를 짬 - 이 방식은 예전 HCI(휴먼컴퓨터인터랙션) 디자인 기술인 Wizard of Oz와 비슷함. 사람이 실제 앱인 척 흉내내는 실험으로, 새로운 기능을 찾는 데 효과적임 위키 설명
- 오늘 아침 이 방식을 성공적으로 사용함. AI에게 유닛 테스트 코드를 만들라고 했는데 결과가 엉망이었음. 하지만 그 실패 과정에서 오히려 테스트하려던 코드에 버그가 숨어 있다는 걸 발견함
- HDD, 환각 주도 개발(Hallucination-Driven Development) 농담
- 내가 최근에 쓴 글 중에 "환각이 때때로 테스트 주도 개발(TDD)처럼 작동할 수 있음. 대형 언어 모델이 존재하지 않는 메서드를 환각으로 만들어낸다면, 그 메서드가 논리적으로 필요해서 그런 것일 수 있으므로 직접 구현하는 게 좋을 때가 있음"이라는 내용이 있음 원문 보기. 제품 기능에도 해당하는 이야기임
- 우리 중 많은 사람이 이 방법을 직접 겪어본 듯함. 비브 코더들의 환각된 API 호출도 사실 먼저 존재했어야 할 제안일지도 모름. 환각 기반 개발, 이제 트렌드임 관련 트윗
- 이 사례에서 잘못된 교훈을 얻는 사람들이 많은 것 같음. 진짜 핵심은 수요가 있어서가 아니라, 기술이 존재하지 않는 기능을 환각으로 제안해서 새 기능이 추가됐다는 점임. 생성형 AI가 실제로 존재하지 않는 기능을 있다고 착각하게 만든 것이 주요 포인트. 앞으로 더 심각한 문제가 생길 수 있으니 ChatGPT 운영진이 이런 일이 반복되지 않게 신경 써야 한다고 생각함
- 음악 악보 툴 시장은 여러 방식으로 분열되어 있음. 대표적으로 전통 악보와 탭 악보(기타, 기타류 전용)로 나뉨. 사용자, 표기 방식, 활용 정보까지 완전히 다름. 표준화를 시도한 케이스(MusicXML 등)가 있지만 여전히 캠프 간 장벽이 높음. ChatGPT가 한 일은 탭 악보 사용자도 Soundslice를 쓸 거라 추정한 것인데, 아마도 현재는 그렇지 않을 듯함. 하지만 미래에는 Soundslice가 탭 사용자들에게 특별한 가치를 줄 수 있는 추가 기능을 제공한다면 바뀔 수도 있다고 봄
- 내 의견을 정확히 이해한 건지는 모르겠지만, Soundslice는 10년 전부터 탭 악보(특히 편집기와 다양한 포맷의 임포터 포함)를 완벽히 지원함. 이번에 새로 추가된 건 <i>ASCII tab</i> 지원임
- 최근 LLM으로 코드 작성 시도를 했음. 보일러플레이트 구성에는 쓸 만함. 패턴을 인식해주는 면도 강점임. 다만, 코드를 반복적으로 이리저리 고치게 만들 때가 많음. iOS 앱 전체를 만들어준 적도 있는데, UI는 내가 원하는 대로 잘 변형되었고 샘플 데이터도 다양하게 채워줌. 하지만 코드 구조 정리는 아주 엉망이었음. 오디오 파일의 실행 시간을 리스트 형태로 관리해야 할 때, 파일 ID와 길이를 딕셔너리로 대응시키려 했음(초보 개발자에게: 통상 이런 정보는 AudioFile이라는 객체 안에 붙는 게 정석임). LLM은 예전 버전 코드를 계속 참고하는 경향이 있음. 반복적으로 이번 작업과 상관없는 수정을 고집할 때도 많음. 점점 LLM을 '교육하는' 데 시간을 너무 많이 쓰고 있다는 느낌. LLM의 한계를 넘어서 지나치게 의존지만 않으면 꽤 생산성이 있을 거라 봄. 최소한 내가 바꾼 내용을 파악하고, 5일 전 코드 초안 기준으로 계속 추천만 하지 않았으면 바람임. (긴 플랫 텍스트 파일을 enum 값으로 바꾸는 예제 작업에서, 처음 두 줄만 내가 수정하니 곧 패턴을 익혀 수십 줄을 제대로 제안하는 모습도 보여줌)
- LLM은 정말 생산적인 인턴 여러 명을 두고 일하는 느낌이지만, 그 한계도 비슷함
- 이건 product-channel fit(제품-채널 적합성)이라고 부름. 새 유입 채널에서의 수요를 즉각 포착한 점이 중요 포인트임
- ChatGPT가 실제로 해준 일은, 내가 경험한 회사의 영업팀이 늘 하던 일이 자동화된 버전임. 고객이 원하는 걸 "이미 있다" 혹은 "다음 분기에 된다"라고 자신감 있게 말한 뒤, 엔지니어들한테 빨리 만들어달라고 전해주는 구조와 동일함
- solutions engineering과 연관됨. 즉, 대규모 고객 개별 커스터마이징, 어댑터, 데이터 처리 등 맞춤 솔루션 지원에 집중하는 분야임이 맞는지 궁금함
- 완전히 새로운 시장 니즈 또는 기회를 찾는 참신한 방식임. LLM이 대량의 데이터를 보고 인간이 미처 인지하지 못한 패턴을 "환각"으로 보여줄 수 있는 강점과 맞닿아 있음. 이번 케이스처럼, 실제로 그 패턴이 존재한다는 증거가 사람들이 ChatGPT의 잘못된 정보를 믿고 행동한 결과로 나타남. 즉, 환각→행동→실제 수요 검증→공급자 기능 추가 순서. 구현 비용이 아주 크지 않으면 기업 입장에서 괜찮은 대응임
- 이번 사례에서 바로 떠오른 건 ‘AI SEO’임. 많은 사람이 어떻게 하면 AI 챗봇, 예를 들어 ChatGPT 같은 LLM이 내 사이트로 트래픽을 보내게 만들지 연구하고 있을 거라는 생각. 앞으로 이 시장에 수십억 달러가 몰릴 전망임. 나는 이쪽 지식이 없지만 이미 많은 사람들이 도전 중일 테고, 앞으로는 OpenAI에 비용을 내고 ChatGPT가 내 제품을 더 많이 추천하게 만드는 서비스가 생길지도 궁금함
- 이 판에서 이기려면, 웹사이트가 LLM 트레이닝 데이터에 많이 자연스럽게 언급되도록 유도해야 함. AI SEO와 기존 SEO가 크게 다르지 않음
- AI가 실제 현실에 변화를 끼치는 흥미로운 사례임. AGI가 세상을 정복하는 로봇 군단 이야기를 두려워하는 시각도 있지만, 실제로는 시장의 힘이 AI가 세상을 움직이는 더 직접적인 수단이 될 거라 생각함
- B2B 스타트업에서 "영업팀이 적어둔 기능이 실제론 없는데 백로그가 갑자기 그 기능 쪽으로 급선회"한 사례를 경험한 사람이라면, AI의 환각을 계기로 진행된 변화가 전혀 놀랍지 않을 것임
- "rogue"를 잘못 쓴 것 아니냐는 농담. "생활용품 rouge"와 "규정 위반 rogue"의 차이도 링크와 함께 언급
- B2B 영역에선 영업팀이 파워포인트 자료만 들고 다니다가, 반응이 좋으면 기능이나 심지어 제품 전체를 뒤에서 급조하는 게 표준 관행임. 스타트업만의 일이 아님. 대형 기업도 종종 이런 식 임
- B2B(Business-to-Business)는 기업 대상 비즈니스 의미임
- 우리 회사도 비슷한 문제를 겪음. ChatGPT가 아니라 자체 AI 챗봇이 문서 기반 RAG를 하다가, 실재하지 않는 옵션(flag)을 자꾸 환각함. 그래서 제품 피드백 차원에서 검토함. 그게 꼭 정확히 그 옵션이 필요한 건 아니었지만, 뭔가 직관적인 기능이 빠져있으니 LLM이 그럴듯하게 상상한 거라고 봄