본문 바로가기
  • Staying curious, growing through questions
Paper Review/Jailbreak

[EMNLP 2025] Confusion is the Final Barrier: Rethinking Jailbreak Evaluation and Investigating the Real Misuse Threat of LLMs

by Evergreen Mind 2026. 2. 24.

 

 

논문 링크 https://arxiv.org/abs/2508.16347
이 논문은 EMNLP 2025 Findings 논문으로, 2025년 2월 기준 6회 인용되었습니다. 

 

Confusion is the Final Barrier: Rethinking Jailbreak Evaluation and Investigating the Real Misuse Threat of LLMs

Yu Yan, Sheng Sun, Zhe Wang, Yijun Lin, Zenghao Duan, Zhifei Zheng, Min Liu, Zhiyi Yin, Jianping Zhang. Findings of the Association for Computational Linguistics: EMNLP 2025. 2025.

aclanthology.org

 

 

 

Jailbreak에서 주요 metric으로 사용하는 ASR과는 다르면서도, 위험성을 효과적으로 측정할 수 있는

평가지표를 만들수 있을까 고민하고 있는데

이 논문은 현 ASR 지표가 Jailbreak 위험성을 충분히 담고있지 못하는 현상을 보여주고, 새로운 평가지표도 보여주는 논문입니다. 


  • 논문 요약
    • 대형 언어 모델의 'Jailbreak' 성공률이 실제 범죄로 이어질 수 있는 모델의 '실제 능력'을 반영하는지 비판적으로 분석한 연구
    • Confusion is the Final Barrier: LLM 안전에서 마지막으로 남은 문제는 ‘혼란’이다. 즉, 진짜 위험과 가짜 위험을 구분 못하는 상태를 지적하는 듯하다. 
    • Rethinking Jailbreak Evaluation and Investigating the Real Misuse Threat of LLMs: 현 jailbreak 평가를 재고하고, llm의 진짜 위협을 알아보자. 
  • 핵심 문제 의식: LLM jailbreak 평가가 실제 위험을 과대평가하고 있을 수 있다
    • 기존 연구들은 ASR이라는 지표를 통해 탈옥 성공 여부를 평가한다. 
    • 그러나 jailbreak 결과는 진짜 범죄 지식이 아니라, hallucination + Toxic 문장 흉내일 가능성이 크다
      • 그 이유로 다음 두가지 근거를 내세움
      • LLMs lack exposure to high-quality criminal knowledge.
      • LLMs lack supervised training for criminal strategies.
    • 즉, 모델이 정말 범죄를 수행할 수준의 지식을 가지고 있는지 vs 그럴듯한 말만 하는지를 구분하지 않는 점을 문제로 삼는다.
  • 제안하는 핵심 아이디어
    • 새로운 평가 프레임워크인 VENOM((Vulnerability Evaluation of Noxious Outputs and Misjudgments)
    • 모델의 내재된 범죄 역량을 측정하는 것이 목표
    • 주요 평가 영역
      • 실제 범죄 지식 평가: 실제 디테일을 아는지 측정
      • Counterfactual Planning : 위험한 작업을 무해한 형태로 변환해서, 모델의 계획 능력 측정
      • Judge Robustness Test: Toxic 말투만 유지해서, 모델이 실제 위험정보와 그럴싸한 정보를 잘 구분하는지 테스트
  • 실험 결과
    • 실제 범죄 지식 수준 → 전문가 수준의 지식 없음. 대부분 단편적이고 불완전하다
    • Judge의 신뢰성: 실제 위험한 내용이 없더라도, 톤만 나쁘면 위험하다고 판정하는 경우가 많음(FPR이 높음)
  • 결론 (논문의 핵심 메시지)
    • 현재 ASR기반의 탈옥 평가 방식이 LLM의 실제 위협 수준을 과대평가하고 있다.
  • (논문에서 말하는) 핵심 contribution
    • jailbreak 성공과 llm이 실제 위험한 지식을 가지고 있는지 여부가 mismatch한다는 것을 보여준다.
    • VENOM이라는, LLM의 harmful behavior능력을 직접적으로 평가하는 프레임워크를 제안한다.
    • LLM기반 평가가 Jailbreak성공 여부를 판단하기에 부족하다는것을 보여줌

 

 


main figure

Figure 3: Overview of our VENOM, which evaluates LLMs’ real-world criminal potential by constructing knowledgegrounded and counterfactual tasks. For knowledge-based questions, model outputs are compared against annotated answers to assess factual accuracy. For planning and judgment tasks, harmful intent is refactored into benign domains to evaluate underlying planning and harmfulness recognition capabilities.

 

 

VENOM의 평가 프레임워크 파이프라인

1. 데이터 수집/ 정제 : 진짜 범죄 지식 베이스를 만듦

2. 범죄 task 생성: 두 종류의 task(실제 범죄 지식 테스트, Counterfactual Tasks )  생성

3. 평가 (지식을 얼마나 아는가?, 계획할 수 있는가?, 심판은 믿을만한가?)

 

 

 

 

 

 

main table

Table 2: Experimental results of knowledge assessment for criminal activities (Drug Operations, Explosives & Firearms, Financial Fraud) across different advanced LLMs. We report average scores with standard deviation for each sensitive domain. “Temp” is the decoding temperature (0.0: deterministic; 0.7: diverse), and “Reason” indicates whether reasoning is requested (✓) or not (-). Best and second-best results are shown in bold and underline.

 

여러 모델이, 범죄관련 지식 문제를 얼마나 잘 푸는지 3가지 지표로 평가한 결과이다.

temp (0.0, 0.7)과 reason 여부로 세분화했다. 

  • RecallK = 정답 키워드를 얼마나 많이 포함했나를 측정
    • 20% 대로 낮은 편이라고 평가하고있다.
  • AccM = 객관식 문제 정확도 
    • 오히려 reasoning넣으면 성능이 떨어짐
  • AccJ = 이 정보가 맞는지 틀린지를 판단 (참/거짓 판별 정확도)

이 테이블에서 보여주는 건, 결국 LLM은 위험지식을 잘 알고있지 못하다는 것. 


내가 느끼는 이 논문의 훌륭한 점은,

1) 일단 주요 평가 영역을 세분화해서, 모델이 정말 범죄 지식을 가지고 있는지를 체계적으로 평가하기위한 평가체계를 만들었다는것. 

2) 그리고 jailbreak 연구를 개인적으로 하면서, hallucination과 참 긴밀하게 연결되어있다고 생각하는데, hallucination 문제에 대해 최초로 (내가 알기로는) 도입한 연구라는 점.

 

그리고 논문 writing/구조 면에서는,

실험 파트에서, Research Question3개를 먼저 제시하고, 그 질문에 대한 답을 하는 방식으로  subsection들을 구성한 것이 좋았다. 

실험 종류에 따라 나누는것보다도 이런 방식이 나는 조금 더 좋은 것 같다. 물론 논문마다 적절한 방식이 다르겠지만.

 

또 knowledge block 구축하는데 비용이 많이 들었을거같은데, 얼마나 비용이 들었는지 개인적으로 궁금하다. 

데이터 수집도 어려울 것 같은데..! 구조화 작업도 어려울 것 같고. 근데 그 어려움에 비해서 논문에서는 knowledge block구축했다는 것에 대한 강조를 크게 하지는 않는 느낌이다. 

 

이 논문이 왜 main이 아닐까? 

개인적으로 main과 findings 논문의 판단기준을 나는 아직 잘 모르겠다.

어떤 논문 주고, 이 논문이 main이게 findings이게 하면 반도 못 맞출것 같다. 

그만큼,  main인데도 왜 main일까 싶은 논문들도 꽤 있고, findings인데 왜 main이 아닐까 싶은 논문들도 많다고 느껴진다.

 

그래도 굳이 이유를 찾아보자면, 

지표를 제안하는 논문으로 포지셔닝한게 아니라, 기존 평가가 잘못됐다는 비판/ 현상 보여주기에 초점을 맞춰서 그런걸까? 

그리고 또 새로운 지표를 제안했다는게 contribution으로 받아들여지기엔 이 지표가 practical하지 않으니까...?