Bing AI는 믿을 수 없다
(dkb.blog)- 구글 Bard는 광고에서 틀린 답변을 한걸 이제 모두가 알지만, Bing AI 역시 데모에서 완전히 틀린 답변을 했는데 아무도 눈치 못챘음
애완동물 진공청소기
- Pet Vacuums 을 검색했을때, 한 제품의 단점으로 "흡입력이 낮고, 코드가 짧고, 시끄럽다" 라는게 적혀있음
- 정보 소스로 준 hgtv 기사를 가서 봤는데, 그런 내용은 전혀 없음. 심지어 해당 제품은 "무선"임. "코드가 없는" 휴대용 진공청소기
Mexico Nightlife
- Bing이 멕시코시티 5일 여행 계획을 세워줘서, 저녁에 할 것들을 물어봄
- 웹에서 예약이 가능하다는 Bar는 웹사이트가 없음
- 젊은 층에서 인기라는 나이트클럽은 2014/16년 이후 아무런 리뷰가 없음. 이 장소의 모든 것이 AI가 만들어 낸 것인듯
- 매력적이라는 Bar는 멕시코에서 가장 오래된 게이바. 500개가 넘는 구글 리뷰가 있는 곳인데, 아직 평점/리뷰가 없다고 적은 것도 인상적
- 5개의 장소 추천 중 1개만 정확
Gap 재무제표 요약
- 데모 중 가장 큰 실수이고 예상하지 못했음
- 매출총이익(Gross Margin)이 37.4% 라고 되어있는데, 그건 Unadjusted Gross Margin임. 손상비용을 조정한 매출총이익은 38.7%
- 영업이익률이 5.9%라고 되어있는데, 문서 어디에도 그런 숫자는 나오지 않음
- 희석 EPS 역시 $1.6/$1.75 라고 나와있는데 그런 숫자는 문서에 없음 $0.71/$0.77 임
- 2022년 가이던스에서 순매출 증가를 낮은 두자릿수로 기대한다고 써있는데, 한자리수 중반대로 떨어질 것을 예상하고 있음
- 별도의 문서에서 가져왔거나, 완전히 만든 자료임
- Gap 과 Lululemon 비교도 마찬가지
- Lululemon 데이터도 숫자가 자료와 일치하지 않음
결론
- Bing AI가 미디어의 인기를 끄는데는 성공했지만, 구글 Bard보다 전혀 좋은 것은 아님
- Bing 팀이 이 사전 데모를 틀린 자료로 녹화했다는 것이 믿기지 않음
- 심지어 이게 성공했으며, 다들 제대로 확인도 안하고 Bing AI 칭찬열차에 올라탔다는게 더 놀라움
- Bing AI는 문서에서 정확한 숫자를 추출할수 없고, 출처가 있다고 하면서도 자신있게 정보를 맘대로 구성함
- 정확한 사실을 원하는 사람은 사용해서는 안 될, 아직 준비 안된 제품임
저도 딥러닝 계속 연구하면서 모델들이 over-confidence 문제가 좀 크다는 생각이 있는데, 여기서도 비슷한 문제가 나오네요.
ChatGPT는 OpenAI 측에서 인터넷에 연결되지 않았다는 한계를 분명히 기술하고 있고, 설계에 따라 본문과 같은 질문에 대해서는 종종 답변을 거부한다는 점이 차이점이죠.