분류 전체보기72 [ACL 2024] Rethinking Persuasion to Challenge AI Safety by Humanizing LLMs * 논문에 대한 개인적인 해석이나 견해는 정확하지 않은 내용일 수 있습니다.* 개인적으로 기억하고 싶은 내용은 이탤릭체로 표기하였습니다. 논문 링크: https://aclanthology.org/2024.acl-long.773/본 논문은 ACL 2024에서 Best Social Impact Paper Award를 수상한 논문으로 2026년 3월 기준 620회 인용되었다. 1. 이 논문을 읽게 된 이유 이 논문은 내가 2024년 10월 쯤에 처음 읽었던 논문인데, 그 이후로 정말 여러번 읽었던 논문이다.내가 석사시절 내내 했던 논문의 motivation이 되어준 논문이다. 이 논문은 제목 How Johnny Can Persuade LLMs to Jailbreak Them: Rethinking Pers.. 2026. 3. 25. [Anthropic] Language Models (Mostly) Know What They Know * 논문에 대한 개인적인 해석이나 견해는 정확하지 않은 내용일 수 있습니다.* 개인적으로 기억하고 싶은 내용은 이탤릭체로 표기하였습니다. Language Models (Mostly) Know What They KnowAnthropic is an AI safety and research company that's working to build reliable, interpretable, and steerable AI systems.www.anthropic.com논문 링크: https://www.anthropic.com/research/language-models-mostly-know-what-they-know본 논문은 Anthropic에서 2022년 7월에 공개한 논문이다. 2026년 3월 기준 11.. 2026. 3. 23. [ACL 2024] Think Twice: Perspective-Taking Improves Large Language Models’Theory-of-Mind Capabilities Think Twice: Perspective-Taking Improves Large Language Models’ Theory-of-Mind CapabilitiesAlex Wilf, Sihyun Lee, Paul Pu Liang, Louis-Philippe Morency. Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2024.aclanthology.org 논문 링크:https://aclanthology.org/2024.acl-long.451/ACL 2024 MAIN 논문으로, 2026년 2월 24일 기준 인용수는 84회이다. Theory of M.. 2026. 2. 24. [EMNLP 2025] Confusion is the Final Barrier: Rethinking Jailbreak Evaluation and Investigating the Real Misuse Threat of LLMs 논문 링크 https://arxiv.org/abs/2508.16347이 논문은 EMNLP 2025 Findings 논문으로, 2025년 2월 기준 6회 인용되었습니다. Confusion is the Final Barrier: Rethinking Jailbreak Evaluation and Investigating the Real Misuse Threat of LLMsYu Yan, Sheng Sun, Zhe Wang, Yijun Lin, Zenghao Duan, Zhifei Zheng, Min Liu, Zhiyi Yin, Jianping Zhang. Findings of the Association for Computational Linguistics: EMNLP 2025. 2025.aclantholog.. 2026. 2. 24. 2025년 하반기 정리 | KCC 참석, AAAI 제출 및 리버탈 등 저 포스터 너무 커서 어디에 들어가지도 않고, 혹시 제주도 가는길에 어디 흘릴까봐 정신 바짝 차리면서 가지고 갔던내가 직접 발표하러 간 학회는 처음이었는데, 왜냐면 첫 일저자 논문이니까ㅎㅎ 아무래도 국내다보니 전혀 긴장감 없이 큰 기대도 없이 갔었는데, 좋은 논문들이 많이 걸려있어서 오길 잘했다 투고하길 잘했다라고 생각했다내 논문을 모르는 사람들에게 설명하는게 처음이었는데 정말 인상깊은 경험이었다. 엄청 많은 사람들이 질문을 한 건 아니었지만 그래도! 좋은 경험이었다. 그리고 8월에 aaai를 제출했고, 초록 제출할때 사실 연구실에서 최근 탑티어 논문 제출한 사람은 다 제출하라고 해서 제출한거였는데, 초록에 합격해서 놀랐다. 그리고 본문을 투고해야하는데 사실 본문 투고할때는 이미 aaai reject을 .. 2026. 1. 23. [Anthropic] Training a Helpful and Harmless Assistant with Reinforcement 논문 링크: https://arxiv.org/abs/2204.05862 본 논문은 Anthropic에서 2022년 4월 12일에 공개한 논문입니다. * 리뷰에 개인적인 해석이나 견해는 정확하지 않은 내용일 수 있습니다.* 부족한 내용이나, 혹은 같이 이야기 나누고 싶은 내용은 코멘트 부탁드립니다.* 제가 개인적으로 궁금하고, 더 알아보고 싶은 내용은 하늘색 배경으로 표시하였습니다. 논문은 본문 37페이지 그리고 74페이지까지는 appendix로 상당히 긴 편이다. 1. 이 논문을 읽게 된 이유몇개월 전에 Antrhopic에서 낸 Alignment faking이라는 논문을 너무 재미있게 읽었었고, Anthropic이라는 회사에 점점 관심이 커져서 Anthropic논문의 시초부터 차근차근히 리뷰해보고자 .. 2025. 12. 20. 이전 1 2 3 4 ··· 12 다음