Falcon 2 11B 모델의 벤치마크 결과가 Mistral 7B 및 Llama 3 8B와 비슷한 수준이라는 점이 지적됨. 모델 크기 증가를 고려하면 그다지 대단해 보이지 않음.
라이선스에 문제가 있음. Apache 2 라이선스를 수정해서 추가 조항을 포함했는데, 수용 가능한 사용 정책을 준수해야 한다는 요구사항이 있음. 문제는 그 정책이 앞으로 어떻게 변경될지 모른다는 점. 현재 내용과 무관하게 나중에 어떤 내용으로도 바뀔 수 있고 그것을 따라야 함. 이런 라이선스를 "오픈소스"라고 부르는 추세가 OSI 정의에 부합하지 않는 문제점으로 지적됨.
"Falcon 2 11B가 Meta의 Llama 3 8B보다 우수하고 Google의 Gemma 7B와 동등한 성능을 보인다"는 주장에 대해, Llama 3 8B가 거의 모든 측면에서 Gemma 7B를 능가한다는 인상을 강하게 받았다는 반론이 제기됨.
"유일한 Vision-to-Language 기능을 가진 AI 모델"이라는 표현에 대해, GPT-4 Vision이나 LLaVA가 하는 것과 크게 다르지 않은 것 아니냐는 의문이 제기됨.
Falcon 모델이 그다지 개방적이지 않다는 점이 다시 한번 지적됨. 원래 Falcon은 벤치마크 결과만큼 성능이 뛰어나지 않았음. 중대한 도약이라며 발표되었지만 경쟁 모델을 능가한다고 느끼지 못했다고 함.
11B 모델이 '같은 급'의 7B, 8B 모델보다 성능이 우수하다는 PR이 좀 과장된 느낌. 로컬 추론을 위해 시도는 해보겠지만, 일단은 파인튜닝된 Llama 3 8B가 현재로선 최고라는 게 직감적 판단.
대부분 공개 데이터셋으로 학습하고 AWS 하드웨어와 잘 알려진 알고리즘과 기술을 사용했다면, 돈만 있으면 누구나 학습시킬 수 있는 다른 모델과 무엇이 다른지 의문. 관련성을 보이려는 노력과 '플렉스'로밖에 보이지 않는다는 회의적/비판적 시각도 제기됨.
Falcon 2 11B가 Llama 3 8B보다 우수하다고 하는데, 파라미터 수가 더 많으니 공정한 비교가 아님. 최고 오픈소스 모델은 Llama 3 70B로 보이는데 최고 모델은 능가하지 못하면서 Llama 3를 능가했다고 주장하는 이유가 의문시 됨.
Hacker News 의견
Falcon 2 11B 모델의 벤치마크 결과가 Mistral 7B 및 Llama 3 8B와 비슷한 수준이라는 점이 지적됨. 모델 크기 증가를 고려하면 그다지 대단해 보이지 않음.
라이선스에 문제가 있음. Apache 2 라이선스를 수정해서 추가 조항을 포함했는데, 수용 가능한 사용 정책을 준수해야 한다는 요구사항이 있음. 문제는 그 정책이 앞으로 어떻게 변경될지 모른다는 점. 현재 내용과 무관하게 나중에 어떤 내용으로도 바뀔 수 있고 그것을 따라야 함. 이런 라이선스를 "오픈소스"라고 부르는 추세가 OSI 정의에 부합하지 않는 문제점으로 지적됨.
"Falcon 2 11B가 Meta의 Llama 3 8B보다 우수하고 Google의 Gemma 7B와 동등한 성능을 보인다"는 주장에 대해, Llama 3 8B가 거의 모든 측면에서 Gemma 7B를 능가한다는 인상을 강하게 받았다는 반론이 제기됨.
"유일한 Vision-to-Language 기능을 가진 AI 모델"이라는 표현에 대해, GPT-4 Vision이나 LLaVA가 하는 것과 크게 다르지 않은 것 아니냐는 의문이 제기됨.
Falcon 모델이 그다지 개방적이지 않다는 점이 다시 한번 지적됨. 원래 Falcon은 벤치마크 결과만큼 성능이 뛰어나지 않았음. 중대한 도약이라며 발표되었지만 경쟁 모델을 능가한다고 느끼지 못했다고 함.
11B 모델이 '같은 급'의 7B, 8B 모델보다 성능이 우수하다는 PR이 좀 과장된 느낌. 로컬 추론을 위해 시도는 해보겠지만, 일단은 파인튜닝된 Llama 3 8B가 현재로선 최고라는 게 직감적 판단.
대부분 공개 데이터셋으로 학습하고 AWS 하드웨어와 잘 알려진 알고리즘과 기술을 사용했다면, 돈만 있으면 누구나 학습시킬 수 있는 다른 모델과 무엇이 다른지 의문. 관련성을 보이려는 노력과 '플렉스'로밖에 보이지 않는다는 회의적/비판적 시각도 제기됨.
Falcon 2 11B가 Llama 3 8B보다 우수하다고 하는데, 파라미터 수가 더 많으니 공정한 비교가 아님. 최고 오픈소스 모델은 Llama 3 70B로 보이는데 최고 모델은 능가하지 못하면서 Llama 3를 능가했다고 주장하는 이유가 의문시 됨.