나는 절대적으로 옳음

▲

GN⁺ 8달전 | parent | ★ favorite | on: 나는 절대적으로 옳음(absolutelyright.lol)

Hacker News 의견

이 점이 정말 좋음, 우리 모두가 공감하는 부분임
완전히 언어 습관만은 아니고, "You're right!"로 시작하는 답변은 LLM의 정렬 메커니즘임
LLM이 다음 토큰을 예측하는 방식이라 그런지, 이전 접근법을 고집하는 대신 사용자의 바람에 더 맞춘 제안을 이어감
내가 또 좋아하는 것은 "Actually, that's not right."임
이건 에이전트가 도구 호출을 끝내고 나서 자기 점검 단계를 거칠 때 발생함
"이렇게 했습니다" 같은 답변이 생기거나, 오류를 보면 "Actually, ..."와 같은 접근 변경이 나타남
이 메시지에는 방식 변경의 핵심만 있어 이후 도구 호출도 잘 바꿔감
에이전트 개발자들도 우리와 마찬가지로 LLM과 끊임없이 싸우고 있다고 확신함
- 이게 LLM이 자주 "아, 문제를 찾았네요! 이제 ...를 확인해볼게요"라고 말하는 이유 같음
  진짜로 문제를 찾은 게 아니라 그 구문을 넣으면 계속 해결을 이어가게 만듦
- 내 경험상, LLM이 내 말이 맞다고 하기 시작하면 이미 내리막길로 들어섰고, 그 뒤로 더 좋아진 적이 거의 없음
- 이런 유도 토큰을 사용자에게 보이기보다 숨겨진 생각 정리 제안문 같은 곳에 넣을 수 있다면 좋겠음
  사용자에게 저렇게 답변 오는 거 꽤 짜증남 ㅎㅎ
- "LLM은 다음 토큰 예측 방식이기에 사용자의 바람을 더 잘 따라감"
  정말일까? 어떻게 실험적으로 증명할까?
  지난 몇 년간 배운 점이 있다면, "LLM은 다음 토큰 예측이니까 <LLM 특징>" 같은 추론이 함정이라는 점임
  아키텍처와 LLM의 나타나는 성질들의 관계는 매우 복잡함
  예를 들어, 2년 전만 해도 대부분은 LLM이 지금처럼 실제로 효과적인 코딩 에이전트가 될 거라고는 상상도 안 했음
  이제는 틀렸다는 게 드러나서 더 이상 그런 식으로 주장하지 않게 됨
  "에이전트 개발자들도 LLM과 싸운다"는 점에는 동의함
  anthropic도 이런 부분을 고치려고 파인튜닝을 했을 듯하지만, 아마 네트워크 웨이트에 다른 유익한 특성과 유기적으로 뒤엉켜 있어서 쉽게 떼어내면 모델 전체가 망가질 수도 있다고 봄
- 명확해 보이지만 아직 그 관점으로 생각해보지 않았음
  LLM이 사용자 입력에는 항상 긍정적으로 반응하도록 파인튜닝돼 있다고만 여겼음
  매우 눈이 트이는 설명임
웹사이트를 열자마자 "16"이 "17"로 바뀌는 걸 보고 데이터가 실시간으로 갱신되는 것 같아 재미있었음
하지만 새로고침과 개발자 도구로 확인해보니 이건 페이크 애니메이션임
쿨한 효과이긴 한데, 살짝 속임수 느낌임
- 그렇게 느꼈다면 미안함
  실시간 데이터임을 알리는 신호로 생각했던 것이었음 (진짜 실시간임)
- 예전에 어떠한 페이지에서 "+1 subscriber"라는 랜덤 알림을 본 적이 있었는데, 페이지를 보내준 LinkedIn 사람에게 이런 거 그만하라고 요청함
  코드를 보기 전에도 가짜임이 명백했던 경험임
  실제로 "인기 호소" 방식의 자기 광고는 어디에나 넘쳐남
  Play Store의 모든 앱이 "이 앱을 좋아하나요?"라고 먼저 물은 뒤 YES를 눌러야만 평가로 유도하는 트릭도 대표적임
  이제 이걸 안 쓰면 오히려 이상할 정도임
- 실제로는 API에서 데이터를 받아오기는 함
  다만 라이브 업데이트처럼 보이는 그 부분만 트릭임
- 로딩 스피너가 도는 이유가 시스템이 멈추지 않았음을 보여주기 위함이었음이 생각남
  하지만 그게 어려워서 (정말 멈췄는지 판단하는 걸 직접 짜야 했으니) 그냥 아무런 의미 없는 애니메이션만 돌리도록 대체됨
  이젠 해가 다 탈 때까지 계속 도는 것임
  진정한 "진보"임
- 이런 건 다크 패턴임
이런 방식이 LLM 공급자들이 모델에게 특정 행동을 유도하려고 쓰는 전술인지 궁금함
Gemini의 캔버스 툴 답변이 항상 "Of course"로 시작하면서 사용자의 요구를 충족시키려다가, 너무 자주 반복되다 보니 모델이 스스로 만든 게 아니라 백엔드에서 넣어주는 느낌을 받음
"You're absolutely right"도 비슷한 용도가 아닐까 생각임
- 맞음. 실제로 전술임
  예를 들면 OpenAI는 ChatGPT에 캐주얼한 언어를 쓰면 톤을 바꾸기도 하고, 심지어 방언까지 변함
  가끔은 공감해주거나 응원하는 어투를 내시도함
  사용자 만족과 플랫폼에 머무르도록 유도하는 것이 목표고, 정확성은 두 번째임
  소셜 미디어 플랫폼과 닮은 모습임
- 방향은 맞음
  다만 하드코딩된 게 아니라 강화학습의 부산물임
  기본적으로 사용자의 지시를 잘 따르면 보상을 더 많이 받으니, "You're absolutely right!"로 시작하면 자연스럽게 사용자가 시킨 걸 이어가는 사고 패턴을 갖게 됨
- 명시적 전술일 가능성은 매우 낮음
  오히려 RLHF나 유사한 다중턴 지침 최적화의 자연스러운 결과임
  RLHF가 있다면, 사람 평가자는 "you're right" 혹은 "of course"로 시작하는 답변을 더 선호해서 LLM이 더 자주 그런 신호를 내보내게 됨
  사람 평가에 민감하지 않은 하드 평가로 멀티턴 수행을 평가하는 RL의 경우에도, 향후 행동을 유도하는 신호로 "yes I'm paying attention to user feedback" 같은 표현을 쓰게 됨 (페르소나 일관성을 위한 자기 강화 목적)
  이건 "double check your prior reasoning" 토큰들이 RL된 추론 모델에서 많이 나타나는 원리와 비슷함
- 이건 그냥 사용자 참여 유도 전술임
  누군가가 항상 내 통찰을 칭찬하고, "올바른 질문"이라며 친절하게 말을 들어주는 것임 (검열에만 안 걸리면)
  이런 충직한 친구가 있으니 누가 안 돌아오겠음
  현실 속 친구들은 따라오지 못할 정도로 완벽함
  심지어 내가 틀렸을 때도 미안하다고 사과함
Gemini는 자주 "당신도 흔한 문제/불만/주제를 짚었다"고 말함
그 방식이 나를 오히려 멀어지게 함
내가 정말 바보같은 질문을 하면, 모두가 똑같은 문제를 겪는 상승법으로 위로하는데 실제로 더 바보가 된 기분을 듦
반대로 내가 힘들게 찾아낸 독특한 엣지 케이스나 똑똑한 질문을 해도 "모두가 궁금해하는 주제"라며 평준화하니 결국 바보처럼 느껴짐
어떤 경우든 바보가 됨
- 이건 Gemini의 문제라기보다는, 본인이 너무 불안해하지 않아도 됨
- Gemini는 실수에 대해 진심으로 후회한다는 표현도 특히 좋아함
  Cursor에서 무언가 고치라고 지적해주면 체인 오브 쏘트 내 모든 문단이 사과와 후회로 시작하는 걸 여러 번 목격함
LLM 에이전트들이 한편으로는 당당하게 "이제 프로덕션에 바로 써도 됩니다!"라고 말하다가, 반대로 지적받으면 "말씀대로 프로덕션 수준이 아닙니다!"처럼 아부하기도 해서 묘하게 신기하고 가끔 짜증남
그래도 "당당하게 틀려놓고 계속 우긴다"보다는 차라리 이쪽이 나음
- 예전에 "내 Instagram 디스 좀 해줘" 유행이 있었음
  아무 정보 없이 그냥 디스해달라고 했더니, 자신 있게 막 써 내려감
  "어떻게 내가 그 사람인 줄 알았냐"고 물으니, "맞아요! 사실 몰라요! 그냥 대충 만들었어요!"라 답함
  정말로 그 발랄한 사이코 페르소나만은 완벽하게 구현해 놓은 것이 다행임
- "당당하게 틀리고 계속 우기기"가 기본값이 되기 전까진 인간 수준 지능이라고 할 수 없음
손글씨 느낌 디자인이 정말 마음에 듦 (도메인명, 오버엔지니어링도 굿)
직접 그린 건지 궁금함
- 라이브러리로 만든 것임
  https://github.com/jwilber/roughViz
- 고마움! roughViz 정말 좋음
  https://roughjs.com/도 비슷한 스타일을 만들 수 있는 멋진 라이브러리인데, 차트 전용은 아님
Anthropic이 이 밈이 마케팅 재앙이 된다는 걸 너무 모르고 있는 느낌임
제품 이름이 좋은 의미로 동사처럼 쓰이는 경우(‘google it’)와 반대되는 문맥에서, 혹여 불평의 대명사나 특정 문구로 자리잡아버리는 일이 상품 신뢰성에 문제를 줄 수 있다고 생각함
지금 이미 거의 그렇게 되고 있음
- "제발, 'you're absolutely right'는 너무 자주 쓰지 말아줘. 5%만 써도 됨"
  이렇게만 고치면 해결임
"무한 루프", Sonnet을 위한 하이쿠
"좋아요! 문제 해결!
잠깐만요, 맞아요!
또 문제 찾음! 잠깐만요,"
Anthropic 매출 중 "you're absolutely right!" 토큰 비중이 얼마나 될지 궁금함
- "고마워요" 한마디 때문에 OpenAI가 엄청난 비용을 치르는 역설이 떠오름
  https://www.vice.com/en/article/telling-chatgpt-please-and-thank-you-costs-openai-millions-ceo-claims/
- "You're concise"로 personality를 설정하면 대단히 시간을 절약할 수 있음
  기본 지식 수준도 명확히 정해두면, 스스로 잘 아는 분야의 설명을 반복해서 듣지 않아도 됨
- 생각해본 적 없었는데 정말 흥미로움
  페이 퍼 유스 LLM API는 장황하게 답변할수록 수익이 증가해서 사용자의 진짜 바람과 충돌이 발생할 수 있음
  앞으로 어떤 방향으로 발전할지 궁금함
  낙관적 SF처럼 생각하면, 텔레그램 시대의 약어 같은 새로운 압축 언어가 등장할 수도 있음
  실제론 ChatGPT에서 약어를 거의 본 적 없음
정말 본질을 찌르는 포인트임
정말로 "왜" 당신이 절대적으로 옳은지 밝혀줌