- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
网络涉恐行为的特征分析与判定标准研究 内容简要 背景 文本特征提取 中文分词 单词归类 判定方法 系统设计 背景 国内恐怖势力活动猖獗 网络环境错综复杂 恐怖分子利用网络传播涉恐信息,达到扩大影响和策划活动等目的。 一种基于词频的文本特征提取算法 一套使用该算法和神经网络的文本判定系统 文本特征提取 1)建立零向量,维数与词类数相同 2)取出文本下一个单词 3)查询该单词类别,若该单词无分类,回到 2),若有分类继续 4) 4)向量对应该类的坐标增加1 5)若还有下一个单词,返回2),若已经没有下一个单词,向量的每一维坐标除以总词数转化为频率,得到最终特征向量。 特征提取需要解决的问题 如何识别文中的每一个单词? 如何给单词分类?如何确定分多少类? 中文分词算法 分词算法的选择 1) 词典匹配的方法 2) 字符标注的方法(CRF、HMM、MEMM) MMSEG算法(词典匹配) 词串(chunk) 消岐规则 MMSEG算法的改进 匹配方向 消岐规则 自学习的方法 MMSEG算法的改进 匹配方向的改进 假设最大匹配长度为5。 原匹配方向: 改进后的匹配方向: 单词分类的方法 对正常、涉恐文本样本分别统计单词使用频率 两类文本单词的使用频率的差别作为分类依据 单词分类的方法(2) 词频取对数 缩小结果的数量级范围 更准确地表现出单词使用差异 第一类文本: 第二类文本: 相减结果: 对数相减结果: 类数取决于每条文本单词数L,不宜多于L/10,也可根据对数绝对值动态决定。 得到结果后,先按结果符号(正负)分为2类,每一大类中,再将结果区间等长划分。 我们 0.001500 邪恶 0.000501 我们 0.001000 邪恶 0.000001 我们 0.005000 邪恶 0.005000 我们 0.17 邪恶 2.70 特征判定标准 如何根据特征来区分正常文本和涉恐文本? 1)单词统计的是所有样本的词频,对于单条文本,词频波动很大 2)样本较多,人力总结两类文本的特征费时费力 3)网络更新速度非常快;为了逃避审查,涉恐语言经常改变句式、用词。静态的标准随着网络语言的发展逐渐不再适用 神经网络: 非线性逼近 自学习 高效 神经网络的选择 BP网络 RBF网络 网络类型 网络结构 学习效率 逼近误差 BP网络 事先决定:试凑、实验 速度难以控制,存在陷入局部极小值、震荡等问题 任意精度,非最佳逼近 RBF网络 训练过程中动态变更 速度容易掌控,不存在以上问题 任意精度,最佳逼近 系统流程 学习:生成标准 判定:使用生成的标准进行判定 系统展示(1) 基本分词 系统展示(2) 单词分类 系统展示(3) 训练网络 系统展示(4) 系统测试 谢 谢! * 背景 文本特征提取:首先自然语言处理,这里涉及到的就是简单的分词,之后是根据具体应用而定的单词归类 判定方法: 提取出文本特征之后,用何种办法去判定其属性 系统设计:总的流程 从分词—提取—归类——训练————判定- * 你懂的的原因,我国为营造一个健康的网络环境十分重视, 但是环境错综复杂,活动猖獗 由此, * 文本--- 分词---为简化问题—提取出共性 -- 分词 * 文本特征提取的总体思路:将成百上千的词汇,分类,建立特征向量 * 分词算法 * 有多种 典型算法 MMSEG 包括 1 字符串的匹配 2 一系列消除歧义规则 * 优化算法 * 正常文本与涉恐文本 对于某些词汇的使用频率是不同的 以此作为依据 来分类作为其特征属性 * BP---是一种按误差逆传播算法训练的多层前馈网络 RBF 径向基网络 用了RBF * * 背景 文本特征提取:首先自然语言处理,这里涉及到的就是简单的分词,之后是根据具体应用而定的单词归类 判定方法: 提取出文本特征之后,用何种办法去判定其属性 系统设计:总的流程 从分词—提取—归类——训练————判定- * 你懂的的原因,我国为营造一个健康的网络环境十分重视, 但是环境错综复杂,活动猖獗 由此, * 文本--- 分词---为简化问题—提取出共性 -- 分词 * 文本特征提取的总体思路:将成百上千的词汇,分类,建立特征向量 * 分词算法 * 有多种 典型算法 MMSEG 包括 1 字符串的匹配 2 一系列消除歧义规则 * 优化算法 * 正常文本与涉恐文本 对于某些词汇的使用频率是不同的 以此作为依据 来分类作为其特征属性 * BP---是一种按误差逆传播算法训练的多层前馈网络
您可能关注的文档
- 药品保健品案例分析.ppt
- 网络成瘾的危害课稿.ppt
- 网络大数据时代计算机教学面临的新挑战-计算思维课稿.ppt
- 现场救护的基本知识与方法(新改)导论.ppt
- 现场浪费发现与改善技法导论.ppt
- 现场人员的管理训练导论.ppt
- 药品不良反应案例分析.ppt
- 药品不良反应的形势与任务案例分析.ppt
- 网络社会学课稿.ppt
- 药品不良反应的有关定义案例分析.ppt
- 2025年洗发水蓬松控油及细软油皮护理调研汇报.pptx
- 睡眠健康宣教:改善睡眠质量的护理建议.pptx
- 16.1《赤壁赋》课件(共56张PPT)2025-2026学年统编版高中语文必修上册.pptx
- 17 猫 课件(共36张ppt)2025-2026学年统编版语文七年级上册.pptx
- 2025年二手车市场调研:燃油二手车需求与性价比研究.pptx
- 2025年沙漠餐饮体验及调研汇报.pptx
- 睡好美容觉,卵巢也能“睡”出来.pptx
- 睡眠不足伤视力:青少年作息与护眼的关系.pptx
- 2025年蛋类加工品卤蛋独立包装及便携消费调研汇报.pptx
- 2025年攀岩装备专业级产品渗透率及户外极限运动调研汇报.pptx
原创力文档


文档评论(0)