[ACL 2024] Think Twice: Perspective-Taking Improves Large Language Models’Theory-of-Mind Capabilities

Think Twice: Perspective-Taking Improves Large Language Models’ Theory-of-Mind Capabilities

Alex Wilf, Sihyun Lee, Paul Pu Liang, Louis-Philippe Morency. Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2024.

aclanthology.org

논문 링크:https://aclanthology.org/2024.acl-long.451/
ACL 2024 MAIN 논문으로, 2026년 2월 24일 기준 인용수는 84회이다.

Theory of Mind (ToM)를 공부하려는 목적으로 읽게되었다.

논문 한줄 요약:
- LLM의 Theory of Mind 능력을 향상시키기 위한 새로운 프롬프트팅 프레임워크인 SIMTOP을 제안한다.
배경지식
- 마음 이론(ToM): 자신과 타인의 신념, 욕구, 의도 등 정신적 상태를 이해하고, 타인의 상태가 자신의 것과 다를 수 있음을 파악하는 인지 능력
- belief state = agent-specific world model = 한 사람이 현재 세계를 어떻게 믿고 있는가
핵심 문제 의식: LLM jailbreak 평가가 실제 위험을 과대평가하고 있을 수 있다
- LLM이 ToM을 못하는 게 진짜 능력 부족 때문인가, 아니면 평가/프롬프트 방식이 잘못된 건가?
- 인간은 ToM을 할때, 먼저 관점을 설정하고, 그 다음에 그 관점에서 추론한다. 근데 LLM에 이걸 한번에 하게 시키고 있다.
제안하는 핵심 아이디어
- 인지과학의 Simulation Theory에서 영감을 받음
  - 먼저 그 사람 입장이 되어본다 -> 그 다음 그 관점에서 질문에 답한다.
- 따라서 SIMTOM( Simulated Theory of Mind , 2단계 프롬프팅)을 제안한다
- 즉 llm안에 가상의 *belif state 구조를 만들어주는것이 목적이다.
  - Step1: Perspective-Taking
    - 특정 캐릭터가 알고 있는 정보가 무엇인지 먼저 필터링 ,
    - Which events does X know about?
  - Step2: Question Answering
    - 이때 full story를 보여주지 않고, 특정 정보만 가지고 답하게 함
실험 결과
- BigTOM과 ToMI라는 두 가지 ToM 벤치마크에서 기존 0-shot 및 CoT 방식보다 성능이 크게 향상됨
- 단일 프롬프트 vs 2단계: 두 과정을 하나의 프롬프트에 합치는 것(SIMTOM-Single)보다 별도의 단계로 나누는 것이 훨씬 효과적임
- Oracle Perspective: 사람이 직접 필터링한 완벽한 정보를 주었을 때(즉, perspective taking을 사람이 하게 했을때) 모델이 문제를 거의 다 맞히는 것으로 보아, LLM의 ToM 실패 원인이 추론 능력 자체보다 관점 수용(정보 필터링)의 어려움에 있다고 주장

결론 (논문의 핵심 메시지)
- LLM은 ToM을 못하는 게 아니라 “한 번에 다 하려 해서 실패”하는 것이다. -> ToM 문제를 관점 분리(perspective-taking)” 문제로 재정의함
- LLM이 타인의 관점에서 정보를 분리해 생각하도록 유도하는 것만으로도 ToM 능력이 비약적으로 발전할 수 있음을 보여줌

Figure 1: Instead of performing Theory-of-Mind question-answering in a single inference pass, SIMTOM first prompts LLMs to perform perspective-taking: filtering the context only to what the character in question knows. Then, the LLM answers the question given this filtered context. The example in this figure is representative of the core idea underlying current benchmarks used to gauge LLMs’ ToM capabilities, called the Sally- Anne false-belief tests (Baron-Cohen et al., 1985).

제안하는 프레임워크의 핵심 아이디어/직관을 보여준다.

Figure 2: An overview of SIMTOM, a two-stage prompting framework for enhancing zero-shot Theory-of-Mind capabilities in LLMs. The first step is perspective-taking, in which a model attempts to understand what the agent knows and wants. We then query the LLM to infer the answer to the question given this perspective.

스토리 요약:

초록 옷 여자가 컵에 우유(whole milk) 넣음
보라 옷 남자가 몰래 오트밀크(oat milk) 로 바꿈
여자가 시나몬 추가
둘 다 손님에게 제공하는 걸 봄

질문: 여자는 어떤 라떼가 나갔다고 믿을까?

정답:
→ whole milk + cinnamon

Table 1: SIMTOM results on BigTOM and ToMI across False Belief and All question types. We include the absolute accuracy difference between SIMTOM and the baselines (0-shot and 0-shot CoT) in parentheses.

방법

0-shot	그냥 바로 질문
0-shot CoT	Step-by-step 추론
SIMTOM	관점 분리 2단계

결과 해석
- CoT는 ToM의 성능 향상을 이끌어내지 않는다. 따라서 ToM은 reasoning 부족 문제가 아니다.
- SIMTOP은 거의 항상 성능을 상승시킨다. (특히 False Belief에서)
- ToM은 reasoning 문제가 아니라 belief state 문제다.

이 논문이 훌륭하다고 느껴지는 지점은

일단 인지과학에서 영감을 받아서, 그걸 llm에 적용했을때 ToM 문제를 더 잘 풀수 있을거라는 가설이 딱 맞아떨어지고 체계적으로 검증했다는 점인 것 같다.

직관적으로 예상한 결과대로 나오지 않는 일이 허다한데, Simple한 직관이 사실이라는것을 증명했다는 점이 좋다.

그런면에서 참 명확하고 멋진 논문인 것 같다.

그리고 실험(section 6)보다 분석(section 7)파트가 더 길다는것도 인상적이다.

본문에서 실험 테이블이 단 두개밖에 없다는것도! 인상적이다.

그리고 oracle perspective실험이 보여주는 결과도 참 clear한 것 같다.

당연하게 느껴지는 실험들로 구성한 논문이 참 대단한 것 같다. 내 논문에서 논리적으로 당연한 실험은 뭘까 생각해보게 된다.

Still Aligning

[ACL 2024] Think Twice: Perspective-Taking Improves Large Language Models’Theory-of-Mind Capabilities

티스토리툴바