모두를 위한 더 빠르고 고품질 AI 답변, Phind-405B

(phind.com)

1P by GN⁺ 2024-09-06 | ★ favorite | 댓글 1개

There is no content to summarize from the provided article link.

GN⁺ 2024-09-06 [-]

Hacker News 의견들

Phind는 여전히 내가 가장 좋아하는 AI 강화 검색 엔진임
기술 질문에 답하면서, 답을 검증하거나 더 자세히 볼 수 있는 참고 링크를 잘 붙여줌
최근 기록 예시는 Mastodon 지원 비디오 포맷 https://www.phind.com/search?cache=jpa8gv7lv54orvpu2c7j1b5j, XFS와 ext4fs 비교 https://www.phind.com/search?cache=h9rmhe6ddav1bnb2odtchdb1, Apple ][의 no slot clock 접근법 https://www.phind.com/search?cache=w4cc1saw6nsqxyige7g3wple 등이 있음
답이 완벽하진 않지만 좋은 개요를 주고, 웹 출처 링크가 훌륭함. ChatGPT와 Claude는 이 부분이 약하고, Bing CoPilot은 어느 정도 되지만 마음에 덜 듦
- 내 테스트에서는 Phind 70B도 환각 답변을 함
  예를 들어 배터리를 쉽게 교체할 수 있는 블루투스 귀마개를 물었는데, 배터리가 케이스에 납땜돼 있다는 걸 아는 제품을 계속 추천했음. 공평하게 말하면 Perplexity도 이 질문에는 실패함
- 아직 개선 여지가 꽤 크다고 보고 있고, 답변 구성과 검증 가능성을 더 좋게 만들고 있음
- Phind는 인터넷에서 찾을 수 있는 더 관련성 높고 최신인 정보를 얻는 데 주로 쓰던 도구였지만, 3개월쯤 전부터는 그렇지 않게 됨
  시간이 갈수록 여러 질문에서 답이 점점 불완전하거나 틀리는 경우가 많아졌고, 더 나쁘게는 답을 못 찾겠다고 하면서도 참고 사이트 안에 답이 들어 있기도 했음
  결국 주로 Bing과 gpt 4o로 돌아갔고, 솔직히 새 버전을 다시 시도하는 데 시간을 쓰기 망설여짐
- 여기서는 참고 문헌이 보이지만, 내가 질문하면 로그인 상태에서도 답만 나오고 인용이 안 나옴
  예전에도 있던 문제였다가 고쳐진 걸로 알았는데 아직도 겪고 있음. 로그아웃하고 물으면 참고 자료가 나오지만, 그때는 instant 모델을 쓰는 답변임
- 비슷한 이유로 Brave Search를 즐겨 씀
  일반 검색과 LLM 기반 검색 중 더 적합한 쪽으로 쉽게 전환할 수 있음
방금 써봤는데, 조사 중인 연구 주제를 물었더니 답은 줬지만 참고 문헌이 없었음
그래서 답변을 복사해서 구체적으로 참고 문헌을 달라고 하니, 이전 답변에서 특정 연구를 참조한 것이 오류였고 검색 결과에는 그 주장을 뒷받침할 관련 정보가 없다는 식으로 사과함
이건 좀 잘 모르겠음
- 이어서 테스트해 보니, Laravel 11 Blade fragments 사용법을 간단히 설명해 달라고 했을 때는 꽤 괜찮게 답했음
  이후 Laravel에서 쓰는 라우트 코드 3줄을 주고, URL 매개변수로 반환할 fragment를 결정하게 구현하는 법을 물었음
```
Route::get('/vge-frags/{fragment}', function ($fragment) {  
return view('vge-fragments');  
});  
```
  올바른 view가 만들어져 있어야 한다고 말한 건 좋은 출발이었지만, 이어서 아래처럼 추천함
```
Route::get('/vge-frags/{fragment}', function ($fragment) {  
return fragment($fragment);  
});  
```
  바로 틀렸다는 걸 알 수 있었지만, 배우는 사람은 모를 수 있음. 그래서 “잠깐, 이 코드가 어떤 view를 써야 하는지 어떻게 알지?”라고 다시 물어야 했고, 그제야 맞는 답을 줌
```
Route::get('/vge-frags/{fragment}', function ($fragment) {  
return view('vge-fragments')->fragment($fragment);  
});  
```
  이런 모델들은 엣지 케이스를 찾기가 너무 쉽고, 받은 답을 사실상 전부 의심해야 함. 그래도 어떤 때는 매우 강력하고 유용함
- 먼저 Always search가 켜져 있는지 확인하고 첫 질문을 다시 시도해 보면 좋겠음
  그러면 참고 자료와 함께 올바른 답을 얻을 수 있어야 함
- “AI 어시스턴트로서 더 조심했어야 합니다” 같은 문구가 정말 싫음
- 저 긴 사과문은 솔직히 “내가 아무 말이나 했다”를 장황하고 반복적으로 말한 것뿐임
  물론 사람 중에도 저렇게 말하는 이들이 있음. LLM 열풍의 긍정적인 면이 있다면, 우리를 사이코패스식 화법에 면역되게 해줄지도 모름
“AI 기반 검색의 핵심 문제는 기존 Google에 비해 너무 느리다는 점이다. 더 나은 답을 생성하더라도 추가 지연 시간이 꺼려지게 만든다”는 말이 사실인가?
내가 느끼고 듣는 불만은 대부분 부정확한 AI 결과, 예를 들어 코딩을 도와줄 때 자신 있게 틀리는 실수 쪽임
- Enter를 누르고 뭔가가 보이기까지는 당연히 더 느림
  하지만 Enter를 누른 뒤 관련 있는 정답 묶음이 머릿속에 들어오기까지의 시간이 측정해야 할 목표 아닌가? 그 기준으로 보면 20년 된 방식은 10년도 더 전에 정점에 도달한 듯하고, 그렇지 않았다면 Phind가 관심을 얻지 못했을 것임
  20년 된 페이지랭크식 검색에서 검색부터 머릿속에 정답이 들어오기까지 걸리는 시간은 이제 “DNF”, 즉 완료 실패에 가까워지고 있음
  환각이든 무관한 결과든 둘 다 머리를 써서 걸러야 함. 비율로 보면 환각보다 무관한 결과가 더 많고, 단지 우리는 오래전에 검색 결과 페이지에 대한 신뢰를 포기했을 뿐임
- 이건 속도 / 정확도 / 비용의 삼각형 문제임
  작은 모델은 서빙 비용이 효율적이고 빠르지만 절반쯤 틀릴 수 있음
  큰 모델은 저렴한 하드웨어에서 느리게 돌지만 더 정확한 답을 줄 수 있고, 보통 개인 사용 정도에나 충분히 빠름
  세 번째 선택지는 크고 빠르며 정확한 모델인데, Nvidia/Groq 등에 꽤 큰돈을 내야 속도를 낼 수 있고, 전력 비용을 맞추려면 태양광 발전소까지 지어야 할지도 모름
- 내 경험상 사실임
  뭔가를 검색하기 전에 Google 결과를 빠르게 훑는 게 빠를지, Perplexity Pro가 한 줄씩 천천히 답을 뱉는 걸 기다리는 게 빠를지 먼저 짐작해 보곤 함
- 둘 다 핵심 문제라고 봄
  결과가 정확할 때는 너무 느리고, 도착한 결과도 자주 부정확해서 믿기 어려움
제목처럼 모두를 위한 것은 아니고 프로 사용자용임
제목이 혼란스러우니 바꿔주면 좋겠음
이건 Kagi Assistant와 비교하면 어떨지 궁금함
요금제 페이지에는 월 $20에 Phind-405B와 Phind-70B 검색 무제한, 일일 GPT-4o 500회 이상, Claude 3.5 Sonnet 500회 이상, Claude Opus 10회가 적혀 있음
“Phind-405B가 HumanEval 0-shot에서 92%를 기록해 Claude 3.5 Sonnet과 맞먹는다”고 하는데, 다른 벤치마크도 있나?
- Phind를 6개월 결제해서 썼고, 지금은 Kagi Assistant가 더 만족스러움
  링크를 그렇게 많이 주지는 않지만 전체 결과는 비슷하거나 더 좋고, lenses도 쓸 수 있음. 일반 검색 엔진도 같이 제공됨
  Phind에는 UI 관련 짜증 나는 점이 하나 있었는데, Firefox에서 스크롤바가 가끔 무작위로 튀었고 입력할 때마다 또는 토큰 생성 중에도 그랬던 것 같음. 보고 있던 위치를 매번 다시 찾아야 하면 시간이 꽤 낭비되고, 단순히 맨 아래로 되돌아가는 것도 귀찮음
  여전히 핵심 문제는 둘 다 어려운 질문에서 환각이 너무 많다는 점이고, 이건 어디서나 공통 문제임
- VSCode 확장이 있어서 그걸 쓴다면 어느 정도 의미가 있음
  순수 검색 용도로는 잘 모르겠음. 내 경험상 Phind는 인터넷 접근이 있을 때 아주 뛰어나진 않았고, 어떤 사람들은 더 나은 답을 얻으려고 검색 기능을 끄기도 함
- 92% 라는 수치는 더 어려운 벤치마크가 필요하다는 뜻이라 판단하기 어렵게 만듦
  특히 점수가 높은 모델도 환각이 많은 그럴듯한 답을 내놓는 경우가 많음. 예를 들어 Llama 3는 내게는 수다스럽고 자신감 있지만 꽤 자주 틀림
  그 정도 성능이면 정답 자체가 애매한 어려운 엣지 케이스 영역에 들어간 것 같음
- 가격을 보니 월 $20짜리 “Phind 무제한 + ChatGPT 하루 500회” 외에는 더 낮은 구독 등급이 없는 듯함
  필요한 건 그런 게 아니라 월 100회 정도를 $5에 쓰는 요금제임. 코딩 중심 검색 엔진이라면 사람들이 왜 더 기능이 많은 경쟁자와 같은 가격을 내야 하는지 고민해야 함
지난 5~6개월 정도 Phind Pro를 구독해 온 것 같음
검색 결과 오염은 좀 나아진 느낌이지만, 후속 질문을 할 때 답을 망치는 경우가 아직 있음
예를 들어 바로 위 답변의 코드를 참조해서 질문하면, 다음 답변이 대화 맥락이 아니라 검색 결과 안의 어떤 코드에 기반해 답하기도 함. RAG를 잘 몰라서 우선순위 같은 걸로 어떻게 고칠 수 있을지는 모르겠음
그 외에는 웹 인터페이스에서 자체 artifacts를 어떻게 다룰지 정말 기대 중임. Claude의 artifacts UI는 웹에서 작업할 때 내 작업 흐름에 아주 잘 맞고, 여러 파일의 버전이 있는 점도 좋음
- artifacts 작업 중임
  어떤 모델에서 오염이 보이는지 궁금함
잠깐, 이거 실제로 꽤 잘함
합리적인 결과를 얻으려면 여전히 후속 질문을 해야 하지만, 올해 초 테스트했을 때는 대부분의 테스트 질의에서 완전히 실패했음
사용자가 서비스를 평가할 수 있도록 무료 질의를 최소 한 번은 제공하면 좋겠음
- 빠른 모델인 Phind Instant는 완전히 무료임
Phind는 지난 몇 년간 찾은 최고의 생산성 향상 도구임
축하하고 계속 잘 만들어주길 바람
최근 AI에게 아래 질문을 했음
```
const MyClass& getMyClass(){....}  
auto obj = getMyClass();  
```
이건 복사가 일어나는 게 맞지 않느냐고 물었는데, 복사가 안 된다고 매우 자신 있게 답함. auto가 타입을 const 참조로 추론해서 복사하지 않는다고 생각한 것인데 틀렸고, 그러려면 auto&나 const auto&가 필요함. 확실하냐고 다시 물었더니 더 자신 있게 답했음
Godbolt 출력은 여기 있음 https://godbolt.org/z/Mz8x74vxe
"copy"가 출력되는 걸 볼 수 있고, 복사된 객체에서 non-const 메서드를 호출할 수 있는 것도 보이는데 이는 non-const 타입이라는 뜻임
Phind에도 똑같이 물었고 같은 답을 줬음 https://www.phind.com/search?cache=k3l4g010kuichh9rp4dl9ikb
서로 다른 AI 두 개가, 그중 하나는 코딩 특화라면서, 어떻게 이렇게 자신 있게 실패할 수 있나?
- 이런 도구들이 결국 토큰 생성 기계이고 출력이 유사 지능적일 뿐이라는 점을 보여줌
  아직은 맹목적으로 믿을 단계가 아닌 듯함
- LLM이 더 잘 답하게 만드는 오래된 요령 중 하나는 “단계별로 생각해 보자”고 묻는 것임
  아래 질문을 Claude에 그렇게 물어봤음
```
const MyClass& getMyClass(){....}  
auto obj = getMyClass();  
```
  “이게 복사를 만들까? 단계별로 생각해 보자.”
  이런 도구를 더 자주 도움에 쓰려 한다면 도움이 될 수 있음

답변달기

모두를 위한 더 빠르고 고품질 AI 답변, Phind-405B

함께 보면 좋은 글 β

댓글과 토론

Hacker News 의견들