基于特征向量的文本信息过滤算法研究.docVIP

下载本文档

8
0
约6.6千字
约 11页
2018-03-10 发布于北京
举报
版权申诉

基于特征向量的文本信息过滤算法研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于特征向量的文本信息过滤算法研究　　摘要:随着信息技术的迅速发展,网络已经逐步成为人们生活当中不可或缺的信息传播工具。由于网络资源的大量使用和信息的大量传输,导致信息过载及安全等问题日益突出。为了解决信息过滤的过滤精度和效率瓶颈等问题,这里详细地对文本信息过滤的主要过程、文本表示方法、特征向量获取、相似度计算等技术进行研究,提出一个基于特征向量的文本信息过滤算法。该过滤算法有效地平衡了计算负载,具有较高的信息过滤性能。　　关键词:文本信息;特征向量;相似度;信息过滤　　中图分类号:TP391文献标识码:A 　　文章编号:1004-373X(2010)04-145-03 　　　　Algorithm of Text Information Filtering Based on Feature Vector 　　RUAN Bing 　　(Wuhan Polytechnic University,Wuhan,430023,China) 　　Abstract:With its rapid development and widely applied,network has become an important tool to transmit information now.So its important for us to filtrate the information spreading through the network.To help the network information safe guarders control the bad information and identify the bad websites,an algorithm based on the feature vector,and the documents expression and the similar computational are introduced.The work has confirmed the methods which can improve the precision of information filtering. 　　Keywords:text information;feature vector;similarity;information filtering 　　　　0 引言　　　　作为面向Internet的个性化主动信息服务的一个重要中间环节,近年来信息过滤(Information Filtering,IF )技术近年来在信息的处理体系中应用越来越广泛。IF系统的作用与传统的信息检索(Information Retrieval,IR)系统类似,用于帮助用户选择感兴趣的文本。但传统的信息过滤技术难以适应这种动态环境的需求。个性化文本信息过滤就是基于这一要求,根据用户过滤需求,建立基于样本的信息特征过滤模型,在词频和词长的基础上,结合文本中词的属性特征和局部语法结构分析,从统计特性和知识两方面建立特征模型,实现对文本的分析过滤,获得了较好的特定信息过滤准确性和快速性[1-3]。采用计算机能够理解的形式表示文本是信息过滤系统所必须解决的问题。之后,系统可以采用类似于人的工作方式从文本中抽取一些反映文本内容的特征词,并以适当的方式表示这些特征。　　　　1 文本表示　　　　文档的表示方法有许多种,如向量空间模型(Vector Space Model,VSM)、N-Grams表示法和文档概念分类表示法等[4]。向量空间模型于20世纪60年代末由Gerard Salton等人提出,因其简单及有效性,是近几年??来应用最为广泛的模型,检索效果较为显著[5,6]。在VSM模型中,每一个文本都可以用一个向量来表示。向量的元素是由项(词条)及其权重组成的,该向量称之为文本的特征向量。特征向量是文本的一个特征表示,在某种意义上可以完全代表文本的特性。在VSM中,每一篇文本都被映射成多维向量空间中的一个??点,对于所有的文本类和未知文本,都可用此空间中的向量(T1,W1;T2,W2;…;Tm,Wm)来表示(其中Ti为词,Wi为词对应的权重,用以刻画该词在描述此文本内容时的重要程度),从而将文本信息的表示和匹配问题转化为向量空间中向量的表示和匹配问题来处理。　　　　2 特征向量获取　　　　人们用以辨识或区分该事物的标志就是特征。特征向量就是整个文本的标志,它在后续处理中直接代表原文本,特征向量的优劣将直接影响到整个文本处理结果的好坏。因此,文本的特征向量获取是文本信息处理中的一个重要处理步骤。为了提高特征词条获取的精度和速度,需要对分词得到的词