(논문 요약) Beyond A*: Better Planning with Transformers via Search Dynamics Bootstrapping (Paper)
핵심 내용
- 한줄 요약: A* trace 를 transformer 로 학습해서 미로 찾기 성능을 개선시킬수 있다.
- 모델: encoder-decoder T5 transformer
- encoder:
<prompt>
파트 입력 - decoder:
<trace><plan>
파트 혹은<plan>
파트 생성 및 입력
- encoder:
- 학습: (1) predict A*’s search dynamic (2) reduce steps via expert iterations
실험
- Search-augmented sequence: trace 가 포함됨 (
<prompt><trace><plan>
파트 전부 사용) - Solution-only sequence:
<prompt><plan>
파트 사용