网络涉恐行为的特征与判定标准研究教案分析.pptVIP

  • 77
  • 0
  • 约2千字
  • 约 18页
  • 2016-04-13 发布于湖北
  • 举报

网络涉恐行为的特征与判定标准研究教案分析.ppt

网络涉恐行为的特征分析与判定标准研究 内容简要 背景 文本特征提取 中文分词 单词归类 判定方法 系统设计 背景 国内恐怖势力活动猖獗 网络环境错综复杂 恐怖分子利用网络传播涉恐信息,达到扩大影响和策划活动等目的。 一种基于词频的文本特征提取算法 一套使用该算法和神经网络的文本判定系统 文本特征提取 1)建立零向量,维数与词类数相同 2)取出文本下一个单词 3)查询该单词类别,若该单词无分类,回到 2),若有分类继续 4) 4)向量对应该类的坐标增加1 5)若还有下一个单词,返回2),若已经没有下一个单词,向量的每一维坐标除以总词数转化为频率,得到最终特征向量。 特征提取需要解决的问题 如何识别文中的每一个单词? 如何给单词分类?如何确定分多少类? 中文分词算法 分词算法的选择 1) 词典匹配的方法 2) 字符标注的方法(CRF、HMM、MEMM) MMSEG算法(词典匹配) 词串(chunk) 消岐规则 MMSEG算法的改进 匹配方向 消岐规则 自学习的方法 MMSEG算法的改进 匹配方向的改进 假设最大匹配长度为5。 原匹配方向: 改进后的匹配方向: 单词分类的方法 对正常、涉恐文本样本分别统计单词使用频率 两类文本单词的使用频率的差别作为分类依据 单词分类的方法(2) 词频取对数

文档评论(0)

1亿VIP精品文档

相关文档