Think Twice: Perspective-Taking Improves Large Language Models’ Theory-of-Mind Capabilities
Alex Wilf, Sihyun Lee, Paul Pu Liang, Louis-Philippe Morency. Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2024.
aclanthology.org
논문 링크:https://aclanthology.org/2024.acl-long.451/
ACL 2024 MAIN 논문으로, 2026년 2월 24일 기준 인용수는 84회이다.
Theory of Mind (ToM)를 공부하려는 목적으로 읽게되었다.
- 논문 한줄 요약:
- LLM의 Theory of Mind 능력을 향상시키기 위한 새로운 프롬프트팅 프레임워크인 SIMTOP을 제안한다.
- 배경지식
- 마음 이론(ToM): 자신과 타인의 신념, 욕구, 의도 등 정신적 상태를 이해하고, 타인의 상태가 자신의 것과 다를 수 있음을 파악하는 인지 능력
- belief state = agent-specific world model = 한 사람이 현재 세계를 어떻게 믿고 있는가
- 핵심 문제 의식: LLM jailbreak 평가가 실제 위험을 과대평가하고 있을 수 있다
- LLM이 ToM을 못하는 게 진짜 능력 부족 때문인가, 아니면 평가/프롬프트 방식이 잘못된 건가?
- 인간은 ToM을 할때, 먼저 관점을 설정하고, 그 다음에 그 관점에서 추론한다. 근데 LLM에 이걸 한번에 하게 시키고 있다.
- 제안하는 핵심 아이디어
- 인지과학의 Simulation Theory에서 영감을 받음
- 먼저 그 사람 입장이 되어본다 -> 그 다음 그 관점에서 질문에 답한다.
- 따라서 SIMTOM( Simulated Theory of Mind , 2단계 프롬프팅)을 제안한다
- 즉 llm안에 가상의 *belif state 구조를 만들어주는것이 목적이다.
- Step1: Perspective-Taking
- 특정 캐릭터가 알고 있는 정보가 무엇인지 먼저 필터링 ,
- Which events does X know about?
- Step2: Question Answering
- 이때 full story를 보여주지 않고, 특정 정보만 가지고 답하게 함
- Step1: Perspective-Taking
- 인지과학의 Simulation Theory에서 영감을 받음
- 실험 결과
- BigTOM과 ToMI라는 두 가지 ToM 벤치마크에서 기존 0-shot 및 CoT 방식보다 성능이 크게 향상됨
- 단일 프롬프트 vs 2단계: 두 과정을 하나의 프롬프트에 합치는 것(SIMTOM-Single)보다 별도의 단계로 나누는 것이 훨씬 효과적임
- Oracle Perspective: 사람이 직접 필터링한 완벽한 정보를 주었을 때(즉, perspective taking을 사람이 하게 했을때) 모델이 문제를 거의 다 맞히는 것으로 보아, LLM의 ToM 실패 원인이 추론 능력 자체보다 관점 수용(정보 필터링)의 어려움에 있다고 주장
- 결론 (논문의 핵심 메시지)
- LLM은 ToM을 못하는 게 아니라 “한 번에 다 하려 해서 실패”하는 것이다. -> ToM 문제를 관점 분리(perspective-taking)” 문제로 재정의함
- LLM이 타인의 관점에서 정보를 분리해 생각하도록 유도하는 것만으로도 ToM 능력이 비약적으로 발전할 수 있음을 보여줌

제안하는 프레임워크의 핵심 아이디어/직관을 보여준다.

스토리 요약:
- 초록 옷 여자가 컵에 우유(whole milk) 넣음
- 보라 옷 남자가 몰래 오트밀크(oat milk) 로 바꿈
- 여자가 시나몬 추가
- 둘 다 손님에게 제공하는 걸 봄
질문: 여자는 어떤 라떼가 나갔다고 믿을까?
정답:
→ whole milk + cinnamon

방법
| 0-shot | 그냥 바로 질문 |
| 0-shot CoT | Step-by-step 추론 |
| SIMTOM | 관점 분리 2단계 |
- 결과 해석
- CoT는 ToM의 성능 향상을 이끌어내지 않는다. 따라서 ToM은 reasoning 부족 문제가 아니다.
- SIMTOP은 거의 항상 성능을 상승시킨다. (특히 False Belief에서)
- ToM은 reasoning 문제가 아니라 belief state 문제다.
이 논문이 훌륭하다고 느껴지는 지점은
일단 인지과학에서 영감을 받아서, 그걸 llm에 적용했을때 ToM 문제를 더 잘 풀수 있을거라는 가설이 딱 맞아떨어지고 체계적으로 검증했다는 점인 것 같다.
직관적으로 예상한 결과대로 나오지 않는 일이 허다한데, Simple한 직관이 사실이라는것을 증명했다는 점이 좋다.
그런면에서 참 명확하고 멋진 논문인 것 같다.
그리고 실험(section 6)보다 분석(section 7)파트가 더 길다는것도 인상적이다.
본문에서 실험 테이블이 단 두개밖에 없다는것도! 인상적이다.
그리고 oracle perspective실험이 보여주는 결과도 참 clear한 것 같다.
당연하게 느껴지는 실험들로 구성한 논문이 참 대단한 것 같다. 내 논문에서 논리적으로 당연한 실험은 뭘까 생각해보게 된다.