(논문 요약) GPT o1 검증

Evaluation of OpenAI o1: Opportunities and Challenges of AGI (Paper)

  • 다양한 분야 (computer science, mathematics, natural sciences, medicine, linguistics, and social sciences) 에서 케이스 분석
  • 복잡한 코딩 문제 83.3% 풀고, 고등학교 수학 100% 풀었다고함.

When a language model is optimized for reasoning, does it still show embers of autoregression? An analysis of OpenAI o1 (Paper)

  • 기존 모델보다 나아졌지만 rare task 에서 잘못하는 경향은 여전히 존재.
    • Shift cipher: 알파벳 몇자 이동시켜서 문자 변환 (e.g. bou->ant)
    • Pig Latin: 앞글자 뒤로 이동시키고 dummy 를 그 뒤에 붙임 (e.g. food->oodfay)
    • Article swapping: List[str] 이 주어지고 지정된 특정 단어를 바로 앞 단어와 순서 바꿈
    • Reversal: 주어진 List[str] 역순으로 재출력