第9章信息过滤与邮件过滤.ppt

  1. 1、本文档共30页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第9章信息过滤与邮件过滤

第九章 网络信息过滤与邮件过滤 9.1 研究背景和现状 9.2 关键技术研究 9.3 信息过滤实现和结构 9.4 垃圾邮件过滤实现和结构 9.5 主要工作总结 9.1 研究背景和现状 研究背景 网络跟人们的生活越来越紧密。然而网络是双面的,人们在享受网络所带来的便利的同时,不可避免地接触到大量的不良信息。 过滤网络信息,使网络用户尤其是青少年学生远离非友善信息的侵扰,使得网络环境更加纯净、美好。 过滤掉用户不感兴趣的网页信息和垃圾邮件,可以节省用户的上网时间。 9.1 研究背景和现状 研究现状 当前信息过滤的研究以TREC会议为核心,主要是文本过滤 。 国内有关信息过滤的研究以核心算法为主,主要集中在特征抽取、学习算法和过滤算法上。 出现了一些过滤软件,但存在较多问题,过滤效果不佳。 9.2 关键技术研究 现有网络过滤技术及其存在问题 网络过滤新技术研究 9.2 关键技术研究 现有网络过滤技术及其存在问题 断开物理连接 资源有限,更新速度慢,多半是过期的网页 地址库(URL)过滤 需要不断更新地址库 基于关键字的页面内容过滤。 易被伪装技术突破 过滤往往矫枉过正 9.2 关键技术研究 网络过滤新技术研究 --针对内容进行过滤 9.2关键技术研究 关键技术 文本表示 特征选择 分类算法 模糊模式识别 9.2 关键技术研究 信息表示(文本表示 ) 信息过滤的主要工作是比较用户请求信息和要过滤的非法信息的匹配程度,为此,需要能够有效地表示信息空间,一般采用模型化的方法表示信息空间。 目前常用的文本表示模型有: 布尔逻辑模型 向量空间模型 概率推理模型 潜在语义索引模型 9.2 关键技术研究 布尔逻辑模型 一种相对简单的信息过滤模型。在过滤时,它以文档中是否包含特征项来作为取舍的标准。 特点是实现容易、操作方便 结果非真即假,限制性过强 9.2 关键技术研究 向量空间模型 以特征项作为文本表示的基本单位,特征项构成特征项集,将文档表示为向量。 9.2 关键技术研究 概率推理模型 向量空间模型中,假设文档向量空间的基是相互正交的,没有考虑检索词间的相互关系。概率推理模型包括了检索词间的依赖关系以及主要参数,如检索词权重计算,查询与文档相似性计算,由模型自身决定。 9.2 关键技术研究 潜在语义索引模型 利用字项与文档对象之间的内在关系形成信息的语义结构。这种语义结构反映了数据间最主要的联系模式,忽略了个体文档对词的不同的使用风格。 LSI向量中的值是通过SVD分解得到的缩减了的值,内容相近文档的向量也是相近的。 9.2 关键技术研究 特征选择 前面讨论的文本表示模型,一直假定特征向量每一维的特征都是确定的。事实上,这些特征是从文本中选择出来的,这些特征的选择是非常重要的,它强烈的影响到文本表示的准确程度,影响到后面的过滤器的设计及其性能。 主要包括分词与选择两部分。 9.2 关键技术研究 分词 --文本内容与文本中出现的词关系十分密切,汉语词间没有明显的标志,分词的目的就是准确的识别文本中的单词。 基于字典的字符串匹配方法 基于统计的分词 基于句法与自然语言理解的方法 9.2 关键技术研究 选择 --训练集中包含了大量的词汇,如果把这些词都作为特征,将带来一系列问题:首先是向量的维数太大,给计算带来了非常大的压力,存储空间大、处理速度慢。其次是这些词中实际上有很大一部分是与类别无关的,对分类作用不大,甚至存在较大副作用。常用的特征选择方法有: 文档频率 信息增益 互信息 9.2 关键技术研究 分类算法 --其目的为找到特征空间与类别之间的映射关系。常见方法: Racchio方法 K-元最近邻居(KNN)方法 Na?ve Bayesian方法 支持向量机(SVM)方法 9.2 关键技术研究 Racchio方法 --根据算术平均为每类文本集生成一个代表该类的中心向量,然后在新文本来到时,确定新文本向量,计算该向量与每类中心向量间的距离(相似度),最后判定文本属于与文本距离最近的类, 9.2 关键技术研究 K-元最近邻居(KNN)方法 --给出一个测试文档,从训练文档中找出与该文档最近(用相似度度量)的k个文档,用这k个邻域文档所属的类别作为测试文档的候选类别。 9.2 关键技术研究 Na?ve Bayesian方法 --是一种概率方法,它利用先验概率的联合概率计算出后验概率,并且根据样本集构造分类标准,根据测试样本的后验概率对测试样本进行分类。 9.2 关键技术研究 支持向量机(SVM)方法 --建立在一套较为完善的机器学习理论——统计学习理论基础之上,并具有较好的泛化能力。

文档评论(0)

shuwkb + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档