直播预告 | 开源Talk:大语言模型与视觉语言模型越狱行为及防御机制的回顾与展望

始智AI wisemodel.cn开源社区

始智AI wisemodel.cn社区将打造成huggingface之外最活跃的中立开放的AI开源社区。欢迎《》以及《》。wisemodel社区上升级了,两步完成模型部署和,并。

AI安全说 第1期

嘉宾在线解读✔️

在线实时Q&A✔️

直播主题

大语言模型与视觉语言模型

越狱行为及防御机制的回顾与展望

直播嘉宾

张沛炎

香港科技大学在读博士生

金海波

伊利诺伊大学厄巴纳-香槟分校在读博士生

2024年08月31日(周六)

10:00-11:00

观看方式

始智AI-wisemodel社区 视频号

wisemodel社区 B站直播间

报告介绍

人工智能通过大语言模型(LLM)和视觉语言模型(VLM)的发展迅速进步,在多个技术领域带来了显著的提升。虽然这些模型增强了自然语言处理和视觉交互任务的能力,但它们的广泛应用也引发了关于安全性和伦理对齐的重要问题。

本次 talk 将广泛回顾这一新兴领域,重点探讨绕过 LLM 和 VLM 伦理和操作边界的刻意行为,即所谓的“越狱”行为,以及由此引发的防御机制的发展。我们将越狱行为分为七种不同类型,并详细阐述应对这些漏洞的防御策略。

通过这一全面的分析,我们识别了当前的研究空白,并提出了未来研究的方向,以加强 LLM 和 VLM 的安全框架。我们的研究结果强调了从越狱策略和防御解决方案两方面进行整合的必要性,以促进下一代语言模型的稳健、安全和可靠的发展环境。

嘉宾介绍

张沛炎

香港科技大学博士生

张沛炎是香港科技大学在读博士生。自2022年8月起,他作为访问学者在伊利诺伊大学香槟分校(UIUC)Haohan Wang教授的研究团队工作。在此期间,他的研究重点是为智能信息系统开发值得信赖的机器学习方法,譬如隐私保护的推荐系统以及机器学习模型的安全性研究,并在ICLR, KDD, WWW, SIGIR, WSDM 等顶级国际会议上发表了多篇高水平论文。目前,他致力于大语言模型越狱行为的研究,探索自然且可信的解决方案,以保障大语言模型的安全性和可靠性。

金海波

伊利诺伊大学厄巴纳-香槟分校博士生

金海波,伊利诺伊大学厄巴纳-香槟分校(UIUC)在读博士生,其导师是Haohan Wang教授。他的研究主要聚焦于深度学习与网络安全、图像与模式识别以及大模型漏洞挖掘等交叉学科领域,特别是针对以深度学习模型为核心的人工智能技术安全问题展开了深入研究。他专注于对抗攻防和可信人工智能的理论与技术研究,并在包括IEEE TDSC、ECCV、ICSE等顶级国际会议和期刊上发表了多篇高水平论文。目前,他致力于大语言模型(LLM)“越狱”行为的挖掘与防御技术的研究,力图为人工智能技术的安全应用提供更加可靠的保障。

欢迎持续关注wisemodel开源社区,如果你也愿意到wisemodel平台来分享,欢迎联系wisemodel运营助手(文末可扫码添加)

----- END -----

wisemodel相关

系统升级

系列模型:

关于wisemodel更多

1

欢迎持续关注和支持

开源社区建设需要长期坚持和投入,更需要广大用户的积极参与、贡献和维护,欢迎大家加入wisemodel开源社区的志愿者计划和开源共创计划。期待更多开发者将开源成果,包括模型、数据集和代码等发布到 wisemodel.cn 社区,共建中立、开放的AI开源社区生态。欢迎扫码添加wisemodel微信,申请加入wisemodel社群,持续关注wisemodel.cn开源社区动态。

2

欢迎加盟wisemodel开源社区

始智AI wisemodel社区自2023年9月上线以来,逐渐成为影响力日益扩大的中立开放的AI开源社区,为了加快公司发展,我们长期需要技术、运营等人才加盟,技术侧重在AI infra、后端开发,熟悉K8S、模型训练和推理等技术, 以及熟悉开发者生态运营的成员,欢迎感兴趣的朋友加盟,可以通过添加wisemodel微信,或者将简历投递到邮箱:liudaoquan@wisemodel.cn

3

欢迎投稿优质内容

欢迎投稿分享人工智能领域相关的优秀研究成果,鼓励高校实验室、大企业研究团队、个人等,在wisemodel平台上分享各类优质内容,可以是AI领域最新论文解读、最新开源成果介绍,也可以是关于AI技术实践、应用和总结等。投稿可以发邮件到liudaoquan@wisemodel.cn,也可以扫码添加wisemodel微信。

4

关于wisemodel开源社区

始智AI wisemodel.cn开源社区由清华校友总会AI大数据专委会副秘书长刘道全创立,旨在打造和建设中立开放的AI开源创新社区,将打造成“HuggingFace”之外最活跃的AI开源社区,汇聚主要AI开源模型、数据集和代码等,欢迎高校科研院所、大型互联网公司、创新创业企业、广大个人开发者,以及政府部门、学会协会、联盟、基金会等,还有投资机构、科技媒体等,共同参与建设AI开源创新生态。

向上滑动查看