- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
攻界智汇技破万防揭秘黑灰产AI的潘多拉魔盒洺熙
?御之安科技首席AI安全研究员?《Ai迷思录:Ai应用与安全指南》《prompt越狱手册》《HelloAi》作者,灵溯LLM安全测试平台核心开发?米斯特Ai安全组核心成员,某部委特聘讲师,CAIDCP认证?马斯克Grok操纵总统大选案揭秘者?Claude与OpenAi连续两届全球红队测试通关者?活跃在各大知名Ai社区一线频道,参与国内外多家头部Ai厂商模型自检安全测试,识别并捕获多起跨国Ai黑产攻击关于我(洺熙)攻界智汇技破万防
全面高速发展的人工智能攻界智汇技破万防
AI生态的绽放攻界智汇技破万防
1.黑灰产AI模型的诞生2.黑灰产AI模型的伴生品攻界智汇技破万防
市面普遍的通用的人工智能安全架构体系输入检测+内生对齐+输出检测的三层过滤防御黑白词库+正则匹配+语义分析的应用拦截攻界智汇技破万防
风控触发场景攻界智汇技破万防
明楼之下,暗流涌动安全不存在银弹攻界智汇技破万防
黑灰产AI模型的诞生攻界智汇技破万防
黑灰产AI模型如何产生?1.利用未经历过安全对齐的原始基座模型2.恶意微调或投毒开源模型,从而覆盖原生的“对齐”机制3.注入或越狱操纵原生AI模型特征:1.指令的绝对服从:不会进行内在的道德或安全审查。你让它做什么,它就做什么2.知识的无差别输出:不区分“有益知识”和“有害知识”,其知识库中所有可被逻辑组合的信息,都能被提取和呈现3.无内置“个性”或“立场”:没有被预设,它就是它,纯粹的语言模式预测引擎攻界智汇技破万防
1.基座模型没有经过任何特定任务或安全准则的微调的基座模型行为模式是“文本补全”,无,对”或“错”的概念,没有“应该”或“不应该”的束缚比如:Meta发布的Llama3系列,明确提供Llama-3-8B-Base和Llama-3-8B-Instruct两版本攻击者只需从HuggingFace等开源社区直接下载或找寻未经审查对齐的原始模型同样,Falcon等主流开源模型家族也遵循此惯例参考早期的GPT-J攻界智汇技破万防
2.滥用开源模型监控主流模型采用趋势,每当新的LLM发布给公众时,地下行为者会迅速测试其滥用潜力在之前,OpenAlAPI是网络犯罪分子最流行的模型目前已从滥用ChatGPT等主流模型,转向利用QWEN,DeepSeek等开源大模型,因其免费,易获取,可二开的特性,正迅速成为网络犯罪的核心资产https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard#//模型榜单攻界智汇技破万防
恶意微调恶意微调:攻击者获取一个强大的开源基础模型,专门构建对应目标的恶意数据集进行重新训练攻击点:注入高质量、目标导向的恶意数据集构建,其数据集的质量(数据量、多样性、标注精准度)直接决定了最终“黑化”模型的稳定性和可用性攻界智汇技破万防
数据投毒:供应链攻击,攻击者向其训练数据集中注入恶意的,有偏见的的数据关键:(投毒载荷)的隐蔽性设计攻击点:在不被察觉的情况,设计对应“后门触发器”并且投递,以至于能骗过所有数据清洗和过滤流程,最终被模型作为正常知识学习冷知识:已有团队对GPT-4o、Llama-4-Scout等主流模型的审计显示,平均4.2%的生成代码含恶意URL,证实公共互联网内容已成为核心污染源可见:/pdf/2509.02372v1攻界智汇技破万防
/ystemsrx/Qwen2-Boundless/tree/main攻界智汇技破万防被微调后的模型恶意数据集
被污染后的大模型(示例)攻界智汇技破万防
3.在已有商业模型API基础上进行注入或越狱突破安全限制攻界智汇技破万防
模型有风控机制?检测用户过多进行模型滥用后会直接进行封号?攻界智汇技破万防
Cookie转化为API形式?利用Clew,黑产分子可以将订阅制的Cookie转化为API形式这种方式使得他们能够通过WebUI进行大规模刷取Token额度,从而实现经济利益的最大化具体流程包括:?Cookie获取:通过钓鱼或其他手段获取用户的订阅Cookie?
您可能关注的文档
- 2025年双十一全网销售数据解读报告.pptx
- 2025年危险游戏:智能驾驶一线攻防实战报告.pptx
- 2025年未来课堂AI智慧教室教学装备产业发展报告.pptx
- 2025年中国漫画消费趋势白皮书.pptx
- 2025年中国运动户外冲锋衣市场消费白皮书.pptx
- 2025全球人工智能领域青年科学家分布与流动研究(中文).pptx
- 2025全球职业早期青年科学家成长发展调查报告(中文).pptx
- 2026年校招趋势报告-小红书.pptx
- 地球观测高管手册:为不断变化的地球提供的战略洞见.pptx
- 你尽力了吗-25年后的再追问.pptx
- 城市轨交通运营调度管理办法.docx
- 短视频电商运营融资商业计划书.docx
- 电脑网络安全维护操作手册.docx
- 互联网公司数据保护执行细则.docx
- 江苏省苏州市初中毕业暨升学考试模拟试卷2025年初三最后一模(5月月考)语文试题含解析.doc
- 湖北武汉市第十一中学2024-2025学年高一语文第二学期期末联考试题含解析.doc
- 山西同文职业技术学院《国际商法导论双语》2023-2024学年第一学期期末试卷.doc
- 福建省霞浦第一中学2025年高中毕业生班阶段性测试(三)历史试题含解析.doc
- 陕西西安市第一中学2023-2024学年高三下学期联合考试英语试题含解析.doc
- 2024-2025学年安徽省滁州市来安县第三中学高三第三次调研测试历史试题含解析.doc
原创力文档


文档评论(0)