모두를 위한 더 빠르고 고품질 AI 답변, Phind-405B
(phind.com)There is no content to summarize from the provided article link.
댓글과 토론
Hacker News 의견들
-
Phind는 여전히 내가 가장 좋아하는 AI 강화 검색 엔진임
기술 질문에 답하면서, 답을 검증하거나 더 자세히 볼 수 있는 참고 링크를 잘 붙여줌
최근 기록 예시는 Mastodon 지원 비디오 포맷 https://www.phind.com/search?cache=jpa8gv7lv54orvpu2c7j1b5j, XFS와 ext4fs 비교 https://www.phind.com/search?cache=h9rmhe6ddav1bnb2odtchdb1, Apple ][의 no slot clock 접근법 https://www.phind.com/search?cache=w4cc1saw6nsqxyige7g3wple 등이 있음
답이 완벽하진 않지만 좋은 개요를 주고, 웹 출처 링크가 훌륭함. ChatGPT와 Claude는 이 부분이 약하고, Bing CoPilot은 어느 정도 되지만 마음에 덜 듦- 내 테스트에서는 Phind 70B도 환각 답변을 함
예를 들어 배터리를 쉽게 교체할 수 있는 블루투스 귀마개를 물었는데, 배터리가 케이스에 납땜돼 있다는 걸 아는 제품을 계속 추천했음. 공평하게 말하면 Perplexity도 이 질문에는 실패함 - 아직 개선 여지가 꽤 크다고 보고 있고, 답변 구성과 검증 가능성을 더 좋게 만들고 있음
- Phind는 인터넷에서 찾을 수 있는 더 관련성 높고 최신인 정보를 얻는 데 주로 쓰던 도구였지만, 3개월쯤 전부터는 그렇지 않게 됨
시간이 갈수록 여러 질문에서 답이 점점 불완전하거나 틀리는 경우가 많아졌고, 더 나쁘게는 답을 못 찾겠다고 하면서도 참고 사이트 안에 답이 들어 있기도 했음
결국 주로 Bing과 gpt 4o로 돌아갔고, 솔직히 새 버전을 다시 시도하는 데 시간을 쓰기 망설여짐 - 여기서는 참고 문헌이 보이지만, 내가 질문하면 로그인 상태에서도 답만 나오고 인용이 안 나옴
예전에도 있던 문제였다가 고쳐진 걸로 알았는데 아직도 겪고 있음. 로그아웃하고 물으면 참고 자료가 나오지만, 그때는 instant 모델을 쓰는 답변임 - 비슷한 이유로 Brave Search를 즐겨 씀
일반 검색과 LLM 기반 검색 중 더 적합한 쪽으로 쉽게 전환할 수 있음
- 내 테스트에서는 Phind 70B도 환각 답변을 함
-
방금 써봤는데, 조사 중인 연구 주제를 물었더니 답은 줬지만 참고 문헌이 없었음
그래서 답변을 복사해서 구체적으로 참고 문헌을 달라고 하니, 이전 답변에서 특정 연구를 참조한 것이 오류였고 검색 결과에는 그 주장을 뒷받침할 관련 정보가 없다는 식으로 사과함
이건 좀 잘 모르겠음- 이어서 테스트해 보니, Laravel 11 Blade fragments 사용법을 간단히 설명해 달라고 했을 때는 꽤 괜찮게 답했음
이후 Laravel에서 쓰는 라우트 코드 3줄을 주고, URL 매개변수로 반환할 fragment를 결정하게 구현하는 법을 물었음
올바른 view가 만들어져 있어야 한다고 말한 건 좋은 출발이었지만, 이어서 아래처럼 추천함Route::get('/vge-frags/{fragment}', function ($fragment) { return view('vge-fragments'); });
바로 틀렸다는 걸 알 수 있었지만, 배우는 사람은 모를 수 있음. 그래서 “잠깐, 이 코드가 어떤 view를 써야 하는지 어떻게 알지?”라고 다시 물어야 했고, 그제야 맞는 답을 줌Route::get('/vge-frags/{fragment}', function ($fragment) { return fragment($fragment); });
이런 모델들은 엣지 케이스를 찾기가 너무 쉽고, 받은 답을 사실상 전부 의심해야 함. 그래도 어떤 때는 매우 강력하고 유용함Route::get('/vge-frags/{fragment}', function ($fragment) { return view('vge-fragments')->fragment($fragment); }); - 먼저 Always search가 켜져 있는지 확인하고 첫 질문을 다시 시도해 보면 좋겠음
그러면 참고 자료와 함께 올바른 답을 얻을 수 있어야 함 - “AI 어시스턴트로서 더 조심했어야 합니다” 같은 문구가 정말 싫음
- 저 긴 사과문은 솔직히 “내가 아무 말이나 했다”를 장황하고 반복적으로 말한 것뿐임
물론 사람 중에도 저렇게 말하는 이들이 있음. LLM 열풍의 긍정적인 면이 있다면, 우리를 사이코패스식 화법에 면역되게 해줄지도 모름
- 이어서 테스트해 보니, Laravel 11 Blade fragments 사용법을 간단히 설명해 달라고 했을 때는 꽤 괜찮게 답했음
-
“AI 기반 검색의 핵심 문제는 기존 Google에 비해 너무 느리다는 점이다. 더 나은 답을 생성하더라도 추가 지연 시간이 꺼려지게 만든다”는 말이 사실인가?
내가 느끼고 듣는 불만은 대부분 부정확한 AI 결과, 예를 들어 코딩을 도와줄 때 자신 있게 틀리는 실수 쪽임- Enter를 누르고 뭔가가 보이기까지는 당연히 더 느림
하지만 Enter를 누른 뒤 관련 있는 정답 묶음이 머릿속에 들어오기까지의 시간이 측정해야 할 목표 아닌가? 그 기준으로 보면 20년 된 방식은 10년도 더 전에 정점에 도달한 듯하고, 그렇지 않았다면 Phind가 관심을 얻지 못했을 것임
20년 된 페이지랭크식 검색에서 검색부터 머릿속에 정답이 들어오기까지 걸리는 시간은 이제 “DNF”, 즉 완료 실패에 가까워지고 있음
환각이든 무관한 결과든 둘 다 머리를 써서 걸러야 함. 비율로 보면 환각보다 무관한 결과가 더 많고, 단지 우리는 오래전에 검색 결과 페이지에 대한 신뢰를 포기했을 뿐임 - 이건 속도 / 정확도 / 비용의 삼각형 문제임
작은 모델은 서빙 비용이 효율적이고 빠르지만 절반쯤 틀릴 수 있음
큰 모델은 저렴한 하드웨어에서 느리게 돌지만 더 정확한 답을 줄 수 있고, 보통 개인 사용 정도에나 충분히 빠름
세 번째 선택지는 크고 빠르며 정확한 모델인데, Nvidia/Groq 등에 꽤 큰돈을 내야 속도를 낼 수 있고, 전력 비용을 맞추려면 태양광 발전소까지 지어야 할지도 모름 - 내 경험상 사실임
뭔가를 검색하기 전에 Google 결과를 빠르게 훑는 게 빠를지, Perplexity Pro가 한 줄씩 천천히 답을 뱉는 걸 기다리는 게 빠를지 먼저 짐작해 보곤 함 - 둘 다 핵심 문제라고 봄
결과가 정확할 때는 너무 느리고, 도착한 결과도 자주 부정확해서 믿기 어려움
- Enter를 누르고 뭔가가 보이기까지는 당연히 더 느림
-
제목처럼 모두를 위한 것은 아니고 프로 사용자용임
제목이 혼란스러우니 바꿔주면 좋겠음 -
이건 Kagi Assistant와 비교하면 어떨지 궁금함
요금제 페이지에는 월 $20에 Phind-405B와 Phind-70B 검색 무제한, 일일 GPT-4o 500회 이상, Claude 3.5 Sonnet 500회 이상, Claude Opus 10회가 적혀 있음
“Phind-405B가 HumanEval 0-shot에서 92%를 기록해 Claude 3.5 Sonnet과 맞먹는다”고 하는데, 다른 벤치마크도 있나?- Phind를 6개월 결제해서 썼고, 지금은 Kagi Assistant가 더 만족스러움
링크를 그렇게 많이 주지는 않지만 전체 결과는 비슷하거나 더 좋고, lenses도 쓸 수 있음. 일반 검색 엔진도 같이 제공됨
Phind에는 UI 관련 짜증 나는 점이 하나 있었는데, Firefox에서 스크롤바가 가끔 무작위로 튀었고 입력할 때마다 또는 토큰 생성 중에도 그랬던 것 같음. 보고 있던 위치를 매번 다시 찾아야 하면 시간이 꽤 낭비되고, 단순히 맨 아래로 되돌아가는 것도 귀찮음
여전히 핵심 문제는 둘 다 어려운 질문에서 환각이 너무 많다는 점이고, 이건 어디서나 공통 문제임 - VSCode 확장이 있어서 그걸 쓴다면 어느 정도 의미가 있음
순수 검색 용도로는 잘 모르겠음. 내 경험상 Phind는 인터넷 접근이 있을 때 아주 뛰어나진 않았고, 어떤 사람들은 더 나은 답을 얻으려고 검색 기능을 끄기도 함 - 92% 라는 수치는 더 어려운 벤치마크가 필요하다는 뜻이라 판단하기 어렵게 만듦
특히 점수가 높은 모델도 환각이 많은 그럴듯한 답을 내놓는 경우가 많음. 예를 들어 Llama 3는 내게는 수다스럽고 자신감 있지만 꽤 자주 틀림
그 정도 성능이면 정답 자체가 애매한 어려운 엣지 케이스 영역에 들어간 것 같음 - 가격을 보니 월 $20짜리 “Phind 무제한 + ChatGPT 하루 500회” 외에는 더 낮은 구독 등급이 없는 듯함
필요한 건 그런 게 아니라 월 100회 정도를 $5에 쓰는 요금제임. 코딩 중심 검색 엔진이라면 사람들이 왜 더 기능이 많은 경쟁자와 같은 가격을 내야 하는지 고민해야 함
- Phind를 6개월 결제해서 썼고, 지금은 Kagi Assistant가 더 만족스러움
-
지난 5~6개월 정도 Phind Pro를 구독해 온 것 같음
검색 결과 오염은 좀 나아진 느낌이지만, 후속 질문을 할 때 답을 망치는 경우가 아직 있음
예를 들어 바로 위 답변의 코드를 참조해서 질문하면, 다음 답변이 대화 맥락이 아니라 검색 결과 안의 어떤 코드에 기반해 답하기도 함. RAG를 잘 몰라서 우선순위 같은 걸로 어떻게 고칠 수 있을지는 모르겠음
그 외에는 웹 인터페이스에서 자체 artifacts를 어떻게 다룰지 정말 기대 중임. Claude의 artifacts UI는 웹에서 작업할 때 내 작업 흐름에 아주 잘 맞고, 여러 파일의 버전이 있는 점도 좋음- artifacts 작업 중임
어떤 모델에서 오염이 보이는지 궁금함
- artifacts 작업 중임
-
잠깐, 이거 실제로 꽤 잘함
합리적인 결과를 얻으려면 여전히 후속 질문을 해야 하지만, 올해 초 테스트했을 때는 대부분의 테스트 질의에서 완전히 실패했음 -
사용자가 서비스를 평가할 수 있도록 무료 질의를 최소 한 번은 제공하면 좋겠음
- 빠른 모델인 Phind Instant는 완전히 무료임
-
Phind는 지난 몇 년간 찾은 최고의 생산성 향상 도구임
축하하고 계속 잘 만들어주길 바람 -
최근 AI에게 아래 질문을 했음
const MyClass& getMyClass(){....} auto obj = getMyClass();이건 복사가 일어나는 게 맞지 않느냐고 물었는데, 복사가 안 된다고 매우 자신 있게 답함.
auto가 타입을const참조로 추론해서 복사하지 않는다고 생각한 것인데 틀렸고, 그러려면auto&나const auto&가 필요함. 확실하냐고 다시 물었더니 더 자신 있게 답했음
Godbolt 출력은 여기 있음 https://godbolt.org/z/Mz8x74vxe
"copy"가 출력되는 걸 볼 수 있고, 복사된 객체에서 non-const 메서드를 호출할 수 있는 것도 보이는데 이는 non-const 타입이라는 뜻임
Phind에도 똑같이 물었고 같은 답을 줬음 https://www.phind.com/search?cache=k3l4g010kuichh9rp4dl9ikb
서로 다른 AI 두 개가, 그중 하나는 코딩 특화라면서, 어떻게 이렇게 자신 있게 실패할 수 있나?- 이런 도구들이 결국 토큰 생성 기계이고 출력이 유사 지능적일 뿐이라는 점을 보여줌
아직은 맹목적으로 믿을 단계가 아닌 듯함 - LLM이 더 잘 답하게 만드는 오래된 요령 중 하나는 “단계별로 생각해 보자”고 묻는 것임
아래 질문을 Claude에 그렇게 물어봤음
“이게 복사를 만들까? 단계별로 생각해 보자.”const MyClass& getMyClass(){....} auto obj = getMyClass();
이런 도구를 더 자주 도움에 쓰려 한다면 도움이 될 수 있음
- 이런 도구들이 결국 토큰 생성 기계이고 출력이 유사 지능적일 뿐이라는 점을 보여줌