文本信息分析.docVIP

下载本文档

25
0
约1.26万字
约 10页
2017-08-12 发布于重庆
举报
版权申诉

文本信息分析.doc

1、本文档共10页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

文本信息分析.doc

文本信息分析中文文本信息过滤技术研究 1.1文本过滤技术文本信息过滤是指依据一定的标准和运用一定的工具从大量的文本数据流中选取用户需要的信息或剔除用户不需要的信息的方法[1]。文本过滤和文本检索及文本分类有很大的相似之处。文本信息过滤技术发展 1958年Luhn提出的“商业智能机器”是信息过滤的最早雏形。Luhn所提出的构想涉及了信息过滤系统的每一个方面，为后来的文本过滤做了很好的铺垫。1982年，Dernzing首次提出了“信息过滤”的概念，在他描述的例子中，可以通过“内容过滤器”识别出紧急邮件和一般邮件，以此提示对信息内容进行有效控制。1987年，Malone等人提出了三种信息选择模式，即认知、经济、社会。认知模式相当于“基于内容的信息过滤”；经济模式来自于Denning的“阈值接受思想”；社会模式是他最重要的贡献，即“协同过滤”。1989年，美国消息理解大会(Message Understand Conference)成立，将自然语言处理技术引入到信息研究中来，极大地推动了信息过滤的发展。 20世纪90年代以来，著名的文本检索会议TREC（Text Retrieval Conference）每年都把文本过滤当作一个很重要的一个研究内容，这很大程度上促进了文本过滤技术的发展。从TREC-4开始，增加了文本过滤的项目；从1997年TREC-6开始，文本过滤主要任务确定下来；TREC-7又将信息分为自适应过滤、批过滤和分流过滤，使得对信息过滤的研究更加深入。随着信息过滤需求的增长和研究的深入发展，其他领域的许多技术被应用到文本过滤中来，并取得了很好的效果。如信息检索中的相关反馈、伪相关反馈以及文本检索中的向量空间模型的相关技术，文本分类和聚类技术，机器学习以及语言底层的处理技术都被应用到信息过滤中来，极大地拓展了信息过滤的研究广度，推动着信息过滤理论研究与技术应用不断走向完善与成熟。中文本过滤技术中文文本过滤技术在最近几年得到了业内人士的普遍关注。国内对于信息过滤研究起步较晚，但是目前发展也很快，尤其是随着信息安全、信息定制等应用在国内的兴起，对信息过滤技术的研究也得到人们普遍的重视。其中，中科院计算所、复旦大学都曾参加了TREC评测中的信息过滤任务，取得了较好的成绩；哈工大、南开大学等重点科研单位也已经开始对信息过滤进行研究。然而，基于目前提出的中文文本过滤模型开发出的试验系统在不同的领域达到的过滤精度也不相同。由于中英文语法差异较大，对于文本信息的预处理方法不同，因此面向英文的众多过滤算法是否适合中文文本过滤还有待检验[2]。中文文本过滤的关键技术文本过滤工作基本上可以概括为两项：一是建立用户需求模型，表达用户对信息的具体需求；二是匹配技术，即用户模板与文本匹配技术。因此，文本过滤的主要流程首先是根据用户的信息需求，建立用户需求模型，然后在相应的文本流中搜索符合用户需求的文本，同时，利用反馈改进需求模型。文本过滤系统的一般模型如图1所示： 1.2.1中文分词中文分词是对中文句子的切分技术，是中文文本最重要的预处理技术。自动分词过程是指从信息处理需要出发，按照特定的规范，对汉语按分词单位进行划分的过程[3]。自动分词是汉语所特有的研究课题，英语、法语等印欧语种，词与词之间存在着自然的分割，一般不存在分词的问题。中文自动分词已经研究了20多年，但是目前仍然是制约中文信息处理的瓶颈[4]。汉语除了连续书写之外，汉语词汇没有形态变化，也没有各种词的变格，缺乏自然的分割信息。汉语语法的研究多源于印欧语法的研究，分析结果对分词有用的信息较少；汉语的词序义极为灵活，相对的语法限制也较少。在词汇数量上，一般的印欧语种的词汇最多为几十万词，而汉语的词汇高达几百万乃至上千万。一个汉字序列可能有几种不同的切分结果，产生歧义现象。这些都给自动分词造成了极大的困难。宏观上，主要存在语言学和计算机科学等两方面的困难。汉语分词系统的实现及效果依赖于分词理论与方法。目前国内分词系统所采用的或者正在研究的方法基本上分为以下几类。（1）机械分词法：主要有最大匹配法(MM法)、逆向最大匹配法、逐词匹配法、部件词典法、词频统计法、设立标志法等。（2）语义分词法：语义分词法引入了语义分析，对自然语言自身的语言信息进行更多的处理，如扩充转移网络法、知识分词语义分析法、邻接约束法、综合匹配法、后缀分词法等。（3）人工智能法，又称理解分词法，如专家系统法、神经网络方法等。 1.2.2 过滤模型信息过滤系统的性能，关键在于模型的完善程度如何。目前描述文本信息的模型有很多种，有布尔模型、向量空间模型、概率推理模型、潜在语义搜索模型、基于模糊集合的信息过滤模型。其中，向量空间模型（VSM）的最大优点在于它在知识表示方法上的巨大优势：文本被形式