11P by xguru 2023-02-15 | favorite | 댓글 7개
  • 구글 Bard는 광고에서 틀린 답변을 한걸 이제 모두가 알지만, Bing AI 역시 데모에서 완전히 틀린 답변을 했는데 아무도 눈치 못챘음

애완동물 진공청소기

  • Pet Vacuums 을 검색했을때, 한 제품의 단점으로 "흡입력이 낮고, 코드가 짧고, 시끄럽다" 라는게 적혀있음
  • 정보 소스로 준 hgtv 기사를 가서 봤는데, 그런 내용은 전혀 없음. 심지어 해당 제품은 "무선"임. "코드가 없는" 휴대용 진공청소기

Mexico Nightlife

  • Bing이 멕시코시티 5일 여행 계획을 세워줘서, 저녁에 할 것들을 물어봄
  • 웹에서 예약이 가능하다는 Bar는 웹사이트가 없음
  • 젊은 층에서 인기라는 나이트클럽은 2014/16년 이후 아무런 리뷰가 없음. 이 장소의 모든 것이 AI가 만들어 낸 것인듯
  • 매력적이라는 Bar는 멕시코에서 가장 오래된 게이바. 500개가 넘는 구글 리뷰가 있는 곳인데, 아직 평점/리뷰가 없다고 적은 것도 인상적
  • 5개의 장소 추천 중 1개만 정확

Gap 재무제표 요약

  • 데모 중 가장 큰 실수이고 예상하지 못했음
  • 매출총이익(Gross Margin)이 37.4% 라고 되어있는데, 그건 Unadjusted Gross Margin임. 손상비용을 조정한 매출총이익은 38.7%
  • 영업이익률이 5.9%라고 되어있는데, 문서 어디에도 그런 숫자는 나오지 않음
  • 희석 EPS 역시 $1.6/$1.75 라고 나와있는데 그런 숫자는 문서에 없음 $0.71/$0.77 임
  • 2022년 가이던스에서 순매출 증가를 낮은 두자릿수로 기대한다고 써있는데, 한자리수 중반대로 떨어질 것을 예상하고 있음
  • 별도의 문서에서 가져왔거나, 완전히 만든 자료임
  • Gap 과 Lululemon 비교도 마찬가지
  • Lululemon 데이터도 숫자가 자료와 일치하지 않음

결론

  • Bing AI가 미디어의 인기를 끄는데는 성공했지만, 구글 Bard보다 전혀 좋은 것은 아님
  • Bing 팀이 이 사전 데모를 틀린 자료로 녹화했다는 것이 믿기지 않음
  • 심지어 이게 성공했으며, 다들 제대로 확인도 안하고 Bing AI 칭찬열차에 올라탔다는게 더 놀라움
  • Bing AI는 문서에서 정확한 숫자를 추출할수 없고, 출처가 있다고 하면서도 자신있게 정보를 맘대로 구성함
  • 정확한 사실을 원하는 사람은 사용해서는 안 될, 아직 준비 안된 제품임

저도 딥러닝 계속 연구하면서 모델들이 over-confidence 문제가 좀 크다는 생각이 있는데, 여기서도 비슷한 문제가 나오네요.

출처를 지맘대로 만드는게 chatgpt에서도 심해서 바드에 기대가 컸는데..

ChatGPT는 웹의 흐릿한 JPEG입니다 이것과 연결해서 봐야 할듯 하네요

진짜 사람같은 AI를 만들긴 했네요

이건 chat GPT도 똑같습니다. 전문 지식이 없으면 눈치채지 못할 답변들 많이 해요.

ChatGPT는 OpenAI 측에서 인터넷에 연결되지 않았다는 한계를 분명히 기술하고 있고, 설계에 따라 본문과 같은 질문에 대해서는 종종 답변을 거부한다는 점이 차이점이죠.

맞아요 모르면 모른다고하지 자꾸 거짓말을하는듯