面向行业搜索引擎的web文本挖掘技术分析.pdfVIP

  • 0
  • 0
  • 约4.71万字
  • 约 52页
  • 2018-12-03 发布于江苏
  • 举报

面向行业搜索引擎的web文本挖掘技术分析.pdf

面向行业搜索引擎的web文本挖掘技术分析

面向行业搜索引擎的砸B文本挖掘技术研究 第一章绪论 1.1.本文研究的背景(现状)和意义 1.1.1.研究背景 随着互联网的高速发展,网上的信息越来越多,用户要在信息海洋里查找 信息,就像大海捞针一样。搜索引擎技术的出现恰好解决了遮一难题(它可以 为用户提供信息检索服务)。人们希望通过网上信息检索迅速快捷地找到自己 所需要的信息,而这时传统的搜索引擎的弊端就逐渐显露出来。比如说,你在 百度上输入一个人名,常常会找到成百上千个网页,其中--d,部分和你的检索 需求有关,而其他大部分检索结果和你的检索需求无关,由于每个网页都很长, 你必须逐一阅读这些网页才能找到真正的答案,这就是我们经常所说的’rich information’。因此.传统的搜索引擎已不能满足人们的需求。 data,poor 因而新的信息检索方式和搜索引擎呼之欲出,将基于面向行业搜索引擎的 wEB文本挖掘技术应用至第四代搜索引擎雹中去就可以使用户更快捷地找到所 需信息。 1.1.2.国内外研究现状分析 目前国外一些有实力的大公司和科研机构正在探索新的技术,在这方面最 成功的搜索系统是美国垤订sIm。冒公司的搜索引擎,网址为:http://。。. vivisimo.corn/。它对搜索到的网页进行分类聚类,方便用户查找,但是在 中文方面做的效果不理想。 国内来说还没有类似的搜索引擎系统出现。 对于信息抽取,中国主要有中科院、北京大学、哈工大在进行这方面的研 究。 1.1.3.研究意义 面向行业搜索引擎的眦文本挖掘技术研究 互联网是一个多种语言、多种文化交汇碰撞的地方,每个国家都在积极探 索解决本国语言信息处理的问题,随着中国的网络用户的不断增加和国力的日 益增强,汉语很有可能成为互联网上的第二大语言,因此继英文后中文搜索引 擎也将具有无限的应用前景。 互联网上的信息又是开放的,这等于说任何一个用户都拥有海量的信息, 因此目前信息时代竞争的关键已不是占有信息的多少,而是谁能够以最快的速 度准确而详尽的获得自己真正想要得到的信息。正所谓把握时间就是把握成 功,谁如果能以最快的速度把握新的信息,谁就能成功的把握先机,或是在商 战中领先对手。 综上所述,探索新型的,更高效、更人性化的搜索引擎已具有十分重要的 意义。而基于信息抽取的搜索引擎的发展势必为广大网络用户带来更高效快捷 的信息服务,也将会带来互联网上的又一大革命。 1.2.本论文的主要工作 本论文就是针对以上的背景,对现有的搜索引擎进行尝试性的改革。项目 的目标是通过Web信息提取等技术开发针对某一主题的搜索引擎,目前我们针 对中国人名这一主题,并且我们的搜索引擎是一个元搜索引擎,建立在百度搜 索引擎搜索结果的基础上。我们以目录树的形式将最终搜索结果展现给用户, 提供更准确快速的检索服务,方便用户找到他想找的人。其中基于Web信息提 取的文本挖掘是一个底层模块,主要用在之后的网页的分类上,它的任务是从 网页中提取人的相关属性后结合文本分聚类技术将文档分类。 1.3.本论文的主要内容 1.3.1.WEB数据挖掘概述 首先我们将在第二章中我们将对有关WEB文本挖掘的技术进行阐述。 1.3.2.中文WEB文本挖掘关键技术介绍 在第三章中,将详细介绍中文WEB文本挖掘的相关技术,并介绍系统中用 到的一些相关技术。 2 面向行业搜索引擎的■髓文本挖掘技术研究 1.3.3.面向人名搜索引擎的文本聚类研究 在第四章中给出所研究系统的整体框架,接着给出系统运行的总体流程。 并举例分析整个系统的工作过程,详细介绍了系统实现的工作步骤,并对每个 步骤地具体实现细节作了全面的分析。 面向行业搜索引擎的肛B文本挖掘技术研究 第二章Web数据挖掘 2.1.Web数据挖掘概述 随着以数据库、数据仓库等数据仓储技术为基础的信息系统在各行各业的 应用,使海量数据不断产生。随之而来的问题是如此多的数据让人难咀消化, 无法从表面上看出他们所蕴涵的有用信息,更不用说有效地指导进一步的工 作。如何从大量的数据中找到真正有用的信息成为人

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档