(의견 요약) Welcome to the Era of ExperienceS (paper)

The Era of Human Data

  • mathematics, coding, and science 과 같은 도메인에서, LLM 이 배울수 있는 human data 는 한계에 다다르고 있음.
  • 흥미로운 발전은 인간의 현재 이해 수준을 넘어서는 영역에 존재함.

The Era of Experience

  • agent 가 환경 안에서 스스로 경험 하며 축적하는 학습 데이터는 human data 의 양을 능가하게 될것임.
  • AlphaProof 는 formal proving system 환경에서 스스로 학습함.
  • agent 의 4 가지 특징
    • Agents will inhabit streams of experience, rather than short snippets of interaction.
    • Their actions and observations will be richly grounded in the environment, rather than interacting via human dialogue alone.
    • Their rewards will be grounded in their experience of the environment, rather than coming from human prejudgement.
    • They will plan and/or reason about experience, rather than reasoning solely in human terms

Stream

  • 현재 chatbot 들의 주요 기능인 사람과의 QA 는 짧고 간단함.
  • 인간이나 동물들은 몇 년에 걸친 긴 경험을 context 로 활용하고, 장기적인 목표를 성취하기 위하여 현재의 행동을 선택함.
  • agent 로 긴 기간을 학습할수 있으면 다양한 방면에서 효과적일것임 - 헬스케어, 교육, 신소재 개발, 환경 보존 등

Actions and Observations

  • 현재 LLM agent 의 tool use 는 인간이 정해준 action 임.
  • 미래의 과학 agent 는 센서, 로봇팔을 바탕으로 직접 물리 세계에 개입할 것임.

Rewards

  • human preferencereality of the world 과 다름.
  • 인간의 선호만 따르면, 인간이 선호하지 않지만 더 나은 결과를 낼수 있는 시도를 하지 않게됨.

Planning and Reasoning

  • LLM 은 기존 input 을 바탕으로 새로운 token 을 생성해내므로 universal computer 라고 생각할수 있음.
  • human 의 chain of thought 은 optimal sequence 라고 보기 힘듬.
    • 5,000 년전 데이터로 학습하면 animism, 1,000 년전 데이터로 학습하면 theistic, 300 년전 데이터로 학습하면 Newtonian mechanics, 50 년전 데이터로 학습하면 quantum mechanics 의 생각 방식을 학습할 것임.
    • 인류는 가설을 만들고, 실험하고, 결과를 관찰하고 새로운 이론을 만드는 과정을 반복해옴.
  • symbolic, distributed, continuous, or differentiable computations 를 활용하여 더 나은 mechanism of thoughts 를 발견할수 있음.