ChatGPT是由OpenAI训练的大语言模型下的聊天对话机器人。
而随着ChatGPT的诞生,大家对ChatGPT安全的讨论也愈发热烈,ChatGPT Jailbreaking也随之诞生,ChatGPT Jailbreaking是指通过某些手段来规避大语言模型回答上的限制。
本篇文章主要的贡献为收录了目前为止的越狱prompts,100多个。结合论文和自己的思考,针对越狱的prompts和ChatGPT的限制,去进行了分类和实验。最后得出了结论。主要着重实验部分。本篇文章的目的是希望科研工作者以及大模型的研究者可以从攻击的角度去更好的做alignment和防御,而不是鼓吹大家多做ChatGPT越狱,越狱有风险,操作需谨慎。
文章的详细链接如下,欢迎大家贡献
ChatGPT Jailbreaking - 飞书云文档 (feishu.cn)