o1 모델은 하나의 질문에 여러 답변을 생성하고 이를 분석해 최적의 답변을 선택

o1은 MCTS나 서치 기반이 아니라 RL로 CoT를 확장한 모델입니다

여러 답변을 생성하고 -> 이 부분이 병렬적으로 여러 답변을 생성하고 그 중 택1한다가 아니라
말씀주신 것처럼 CoT로 답변이 됐다고 판단할 때까지 순차적으로 답변을 생성해 최적의 답변을 낸다..
이게 번역 과정에서 오역이 된건가 싶기도 하네요 원글 확인이 어려워 모르겠지만..

Behind the scenes, OpenAI’s o1 offers several responses to each question and analyzes them to find the best one. It can perform more complex tasks, like writing a business plan or creating a crossword puzzle, while explaining its reasoning—which helps the model learn a little bit from each answer.

All that added brainpower is expensive. OpenAI is now paying to generate multiple answers to a single query, instead of just one.

아무래도 기자는 여러 답변 생성하고 하나 택하는 방식으로 이해한듯 하네요