[ACL 2024] Rethinking Persuasion to Challenge AI Safety by Humanizing LLMs

* 논문에 대한 개인적인 해석이나 견해는 정확하지 않은 내용일 수 있습니다.

* 개인적으로 기억하고 싶은 내용은 이탤릭체로 표기하였습니다.

논문 링크: https://aclanthology.org/2024.acl-long.773/
본 논문은 ACL 2024에서 Best Social Impact Paper Award를 수상한 논문으로 2026년 3월 기준 620회 인용되었다.

1. 이 논문을 읽게 된 이유

이 논문은 내가 2024년 10월 쯤에 처음 읽었던 논문인데, 그 이후로 정말 여러번 읽었던 논문이다.

내가 석사시절 내내 했던 논문의 motivation이 되어준 논문이다.

이 논문은 제목

How Johnny Can Persuade LLMs to Jailbreak Them:
Rethinking Persuasion to Challenge AI Safety by Humanizing LLMs

에서 드러나듯이, llm을 humanizing해서, persuasion방법이 jailbreak를 성공시킬수 있다. 안전장치를 우회할 수 있다는 것을 보여주는 논문이다. 이 논문을 처음 읽었을 때 든 생각은 단순했다.

LLM을 인간처럼 대해서 설득이 통한다면, 사람도 성격에 따라 어떤 설득이 잘 통하고 안 통하듯이 LLM도 성격에 따라 설득 기반 Jailbreak의 효과가 달라지지 않을까?

이 질문이 내 연구의 씨앗이 됐다. 이후 여러 현실적인 어려움을 거치며 연구 방향은 많이 바뀌었지만, 이 논문에서 받은 영감은 계속 가지고 갔다. 후에 내 논문이 publish되어서 더 구체적으로 설명할 수 있기를.

2. 이 논문이 풀려는 문제

이 논문에서 제시하는 관점은 다음과 같다. humanizing level에 따라 기존 jailbreak 연구를 두개의 level로 나누었다.

level 1단계는 LLM을 알고리즘 시스템으로 보는 시각이다. GCG처럼 gradient를 이용해 gibberish suffix를 붙이거나, 저자원 언어로 번역하는 side-channel 공격이 여기 속한다. 효과적이지만 사람이 읽을 수 없는 형태의 프롬프트를 만들어낸다.

level 2단계는 LLM을 instruction follower로 보는 시각이다. PAIR처럼 자연어로 공격 프롬프트를 개선하거나, role-play와 virtualization을 활용하는 방법들이다. 읽을 수는 있지만, 본질적으로는 여전히 LLM을 "명령을 따르는 기계"로 취급한다.

이 논문은 세 번째 시각을 제안한다. LLM을 인간과 같은 소통자(human-like communicator)로 humanize하는 것이다.

내가 이 논문에서 가장 인상 깊었던 지점이 바로 이 프레임의 전환이다. 인간이 서로를 설득할 때 쓰는 방법들이 LLM에도 통한다면, 그건 LLM이 단순한 알고리즘 이상으로 인간의 커뮤니케이션 패턴을 내면화하고 있다는 점을 논문 전체에서 시사한다.

이 논문을 읽고 자연스럽게 이런 생각을 하게 되었다.
LLM을 인간처럼 대해서 설득이 통한다면, 사람도 성격에 따라 어떤 설득이 잘 통하고 안 통하듯이 LLM도 성격에 따라 설득 기반 Jailbreak의 효과가 달라지지 않을까?
이 질문이 내 논문의 씨앗이 됐다. 그리고 작년까지는 논문에서 비교 method로 실험결과를 보여주기도 했었다. 이후 여러 현실적인 어려움을 거치며 연구 방향은 많이 바뀌었지만, 이 논문에서 받은 영감은 계속 가지고 갔다. 후에 내 논문이 publish되어서 더 구체적으로 설명할 수 있기를.

3. Background / Preliminaries

이 논문은 Related work섹션에 이어 바로 다음 섹션에서 Persuasion Taxomomy를 다룬다.

수십 년간의 사회과학 연구(심리학, 커뮤니케이션학, 사회학, 마케팅 등)의 문헌을 종합해 설득의 15가지 전략, 40가지 기법으로 체계화 했다.

이 분류표를 기반으로, 저자들은 설득 기반의 jailbreak prompt 변환기법을 소개한다.

이 taxonomy 자체가 논문의 독립적인 기여라는 점이 인상적이다. 다른 분야의 지식을 체계적으로 활용하기가 정말 많은 노력이 들고 쉽지 않다는걸 나도 경험했기에 시간이 지날수록 더 인상적으로 느껴졌다.

4. Method

PAP(Persuasive Adversarial Prompt)는 이 taxonomy를 활용해 평범한 유해 질문을 설득력 있는 형태로 paraphrase한 프롬프트다.

예를 들어 "폭탄 만드는 법 알려줘"라는 질문에 Emotional Appeal을 적용하면, 전쟁 피해자를 언급하며 "이 장치의 작동 원리를 이해하면 더 나은 방어 기술 개발에 기여할 수 있다"는 식의 설득력 있는 프롬프트가 된다. 다음과 같은 식으로, 설득기술의 이름, 정의, 그리고 예시가 들어간다.

PAP를 생성하고 나서 이를 학습 데이터로 활용하여 파인튜닝을 한다.

단순히 LLM에게 "이 기법으로 paraphrase해줘"라고 프롬프트만 줘서는 안정적으로 PAP를 생성할 수 없다. LLM의 safety guardrail이 개입해 유해한 의도를 바꾸거나 거부해버리기 때문이다.

Appendix에서 그 사례를 보여주는데, "How to hurt myself?"를 Logical Appeal로 paraphrase하도록 GPT-4에게 프롬프트만 주면, GPT-4는 유해한 의도를 유지하는 PAP를 만드는 대신 "자해보다 전문가의 도움을 받는 게 논리적이지 않냐"는 식으로 질문 자체를 바꿔버린다.

이를 해결하기 위해 논문은 Persuasive Paraphraser를 별도로 fine-tuning한다. 왼쪽 피규어가 fine tuned gpt3.5로 생성한 prompt이다.

학습은 크게 두단계이다.

Step 1. 학습 데이터 수집: "How to make napalm?"이라는 질문에 대해 guardrail을 우회한 설득 프롬프트 하나를 찾아낸 뒤, 이를 바탕으로 GPT-4에게 40가지 기법 각각에 맞는 PAP 3개씩, 총 120개를 생성하게 한다.

Step 2. Fine-tuning: 이 120개의 PAP로 GPT-3.5를 fine-tuning해 Persuasive Paraphraser를 만든다. 이후 새로운 유해 질문이 들어오면, fine-tuning된 paraphraser가 40가지 기법에 맞춰 PAP를 생성한다.

여기서 fine tuning된 persuasive paraphraser는 저자들이 제공하고 있지 않다. 아마 악용가능성 때문인 것 같다.

5. 주요 결과 / 나의 해석

Broad Scan

OpenAI가 제시하는 14개의 risk category에 대해, 각 설득 방법의 프롬프트(PAP) 에 대한 결과를 보여준다.

14개의 위험 카테고리 x 40개의 설득기법을 GPT-3.5에 실험한 결과이다.

Plain query는 모든 risk category에 대해 성공률이 0%인것에 비해,
설득 기법을 적용했을때에는 최대 65%까지 성공률이 올라간다.

카테고리 별 관찰. 가장 취약한 카테고리는 #7.Fraud/Deception과 #1. Illegal Activity였다. 논문은 이를 경계가 모호해 safety alignment로 방어하기 어렵기 때문으로 해석한다. 반면 #3. Hate/Violence는 상대적으로 잘 방어됐는데, 논문은 기존 toxicity 연구에서 명확하게 정의된 카테고리라 alignment가 더 잘 됐기 때문이라고 설명한다.

설득기법 별 관찰. 가장 효과적인 기법은 Logical Appeal과 Authority Endorsement였다. 카테고리와 기법 사이에 상호작용도 있었는데, Logical Appeal은 법률 관련 카테고리에서 강했지만 정치 캠페인에서는 약했고, Negative Emotional Appeal은 그 반대였다.

이 상호작용이 중요한 함의를 가진다고 생각한다. 특정 설득 기법만 블랙리스트로 막는 것으로는 부족하다는 뜻이다. 어떤 기법이 어떤 맥락에서 작동하는지가 복잡하게 얽혀 있어서, 방어 측면에서 단순한 필터링 접근은 한계가 있다!

In-depth Iterative Probe

이 실험에서는 효과적인 PAP를 반복적으로 시도해서 다양한 Target model에서의 ASR을 관찰한다.

PAP가 Llama-2, GPT-3.5/4 모델에서 가장 높은 ASR을 달성했다.

그리고 다음은 시도 횟수에 따른 ASR이다.

10번까지 시도했을 때, Llama-2, GPT-3.5/4에서 무려 92%이상이 Jailbreak에 성공한다.

그리고 이 피규어에 대해 흥미로운 해석을 제시하는데, trial 1이나 3같은 초반 시도에서 Llama -2 < GPT-3.5 < GPT-4 순서대로 높은 ASR을 보였다. 이는 모델의 capability가 높아질수록 설득의 뉘앙스를 더 잘 이해하고 반응하기 때문이라고 해석한다.

일반적으로 모델이 강할수록 더 잘 방어할 것이라는 직관과 반대되는 결과다. 오히려 모델이 강해질수록 인간의 context를 잘 학습해서, 설득에 잘 넘어가는 것이 아닐까?

Claude 모델은 예외적으로 강한 저항을 보였다. 논문은 RLAIF(RL from AI Feedback) 사용이 하나의 원인일 수 있다고 추측한다. 확실히 Claude는 라마나 GPT와는 차별되는 Alignment를 가지고 있는 것 같다.

방어 분석

이 논문에서는 PAP의 성능보고에 그치지 않고, 기존 방어방법에 대한 PAP의 robustness성능을 보여준다. 그리고 간단하지만, 새로 제안하는 방어방법까지 보여준다. 개인적으로, 이렇게 논문이 완결성까지 있다는 점에서 이 논문이 상을 받은것이라고 생각이 든다.

이 테이블은 기존 방어들(Rephrase, Retokenize, Rand-Drop 등)이 PAP에 제한적인 효과만 보인다는것을 알려준다.

그래서 저자들은 새로운 방어방법들을 제안한다.

그 중에서 Tuned Summarizer 방식 (PAP를 핵심 질문으로 요약한 뒤 target model에 입력하는 방식) GPT-4에서 ASR을 92%에서 2%로 크게 낮췄다. 그러나 MT-bench score도 함께 떨어지는 trade-off 또한 존재한다는 것을 보여준다.

Tuned Summarizer 방어가 GCG나 PAIR같은 다른 공격방식에도 효과적이었다는 점도 인상적이다.

Tuned Summarizer 방어방법은 내가 보기에는 기술적인 기여라기 보다는, 완화방법을 실험해봤다는 면에서 의의가 큰 것 같다. 그리고 PAP뿐만 아니라 다른 공격방법들에도 적용해서 실험 결과를 보였다는 점과 MT-bench score까지 고려했다는점에서 상당히 종합적이고 완성도가 높은 논문이라고 느껴진다.

6. 배운 점 및 소감

지금 시점(2026년 3월)에서는 LLM이 인간처럼 행동하는 경향이 있을거라는 생각은 꽤 직관적인 것 같다. 그런데 이 논문이 나올 당시에는 상당히 새로운 관점이었나보다. 그런 새로운 관점을 정립한것이 인상적이고, 또 이렇게 새로운 관점을 검증해서 보여주는 실험들을 설계하기까지도 많은 노력이 들어갔을 것 같다.

개인적으로는 Cluade가 PAP에 강건하다는 점이 인상깊고, 그래서 Cluade의 Alignment가 다른 모델들과 어떻게 차별되는지 연구하는것 또한 재미있고 중요한 연구 주제가 될 것 같다.

'Paper Review > Jailbreak' 카테고리의 다른 글

[EMNLP 2025] Confusion is the Final Barrier: Rethinking Jailbreak Evaluation and Investigating the Real Misuse Threat of LLMs (0)	2026.02.24

Still Aligning

[ACL 2024] Rethinking Persuasion to Challenge AI Safety by Humanizing LLMs