언어 모델 같이 문맥이나 의미 포착 성능을 높이기 위해 벡터크기를 키워왔는데요. 벡터의 크기가 커질수록 차원의 저주로 유클리드 거리는 유사도의 척도로는 적합하지 않다는 게 중론입니다. 그래서 벡터 간의 관계(유사도)는 코사인 유사도를 주로 사용하는 편입니다.

최근 읽은 논문을 생각나게 하는 의견이네요. 때로는 모델에 따라 코사인 유사도 역시 의미가 없을 수도 있습니다. "Is Cosine-Similarity of Embeddings Really About Similarity?" (2024)