网页正文提取系统的详细设计与实现-毕业设计.docVIP

下载本文档

20
0
约8.91千字
约 24页
2017-09-19 发布于陕西
举报
版权申诉

网页正文提取系统的详细设计与实现-毕业设计.doc

1、本文档共24页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

目录摘要 - 3 - 1.绪论 - 4 - 1.1课题背景 - 4 - 1.1.1搜索引擎的历史 - 4 - 1.1.2搜索引擎的发展方向 - 5 - 1.1.3搜索引擎的最新技术发展 - 6 - 1.2课题来源、目的和意义 - 8 - 1.3 主要研究内容 - 9 - 2.网页正文提取系统的详细设计与实现 - 10 - 2.1 基本原理 - 10 - 2.2 网页预处理系统 - 11 - 2.2.1 HTML标签规范化 - 11 - 2.2.1 建立网页的DOM树结构 - 14 - 2.3 核心算法基本思想 - 15 - 2.4 本章小结 - 19 - 结论 - 22 - 参考文献 - 23 - 摘要随着互联网信息技术的不断发展，互联网的信息量也日益膨胀。近年来，全球因特网上的信息数据正以爆炸式的速度在增长。据IDC报告称，从现在到2010年，预计信息量将以每年57%的速度增长，在2010年信息总量将达到988EB （1EB=10亿GB），约为2006年的6倍，相当于有史以来所有书籍数字信息量的1800万倍。面对如此巨大的互联网信息库，如何快速、有效、经济地检索到某个主题的所有相关信息就成了当前一个十分热门的研究课题。这时，搜索引擎的出现无疑给人们带来了极大的方便。然而，随着互联网信息的不断巨增和搜索引擎所覆盖网页范围的不断扩大，人们发现，即使是借助搜索引擎的帮助，他们也越来越难有效和准确的找到自己所需要的信息资源。采用一种统计网页特征的方法，将中文网页中的正文部分抽取出来。该方法首先将网页表示成基于XML的DOM树形式，利用统计的节点信息从树中过滤掉噪音数据节点，最后再选取正文节点。该方法相比传统的基于包装器的抽取方法，具有简单，实用的特点，试验结果表明，该抽取方法准确率达到90％以上，具有很好的实用价值。关键词　；；； 1.绪论本章主要从介绍垂直搜索引擎的与海量搜索的区别，国内外该方向的研究情况，课题来源意义以及论文所要研究的主要内容来描述课题内容。 1.1课题背景 1.1.1搜索引擎的历史最早现代意义上的搜索引擎出现于1994年7月。当时Michael Mauldin将John Leavitt的蜘蛛程序接入到其索引程序中，创建了大家现在熟知的Lycos。同年4月，斯坦福（Stanford）大学的两名博士生，David Filo和美籍华人杨致远（Gerry Yang）共同创办了超级目录索引Yahoo，并成功地使搜索引擎的概念深入人心。从此搜索引擎进入了高速发展时期。目前，互联网上有名有姓的搜索引擎已达数百家，其检索的信息量也与从前不可同日而语。比如最近风头正劲的Google，其数据库中存放的网页已达30亿之巨！随着互联网规模的急剧膨胀，一家搜索引擎光靠自己单打独斗已无法适应目前的市场状况，因此现在搜索引擎之间开始出现了分工协作，并有了专业的搜索引擎技术和搜索数据库服务提供商。国外的Inktomi（已被Yahoo收购），它本身并不是直接面向用户的搜索引擎，但向包括Overture（原GoTo，已被Yahoo收购）、LookSmart、MSN、HotBot等在内的其他搜索引擎提供全文网页搜索服务。国内的百度也属于这一类（百度已于2001年9月开始提供公共搜索服务），搜狐和新浪用的就是它的技术（搜狐二级网页搜索现已改为中搜的引擎，而新浪则已转用Google的搜索结果）。因此从这个意义上说，它们是搜索引擎的搜索引擎。互联网存在的价值就是低成本、高容量、多方的信息传递。互联网每一个杀手级应用都离不开信息和传递这两个关键词。邮箱是、即时通讯是、搜索引擎是、将来的杀手级应用还依然离不开信息和传递这两个关键词。搜索引擎的发展历史是一个挖掘用户需求然后满足用户需求的过程。在可以预见的不久的将来，从产品角度看待网页搜索引擎的发展大致有如下几个方面[1]： (1) 确解用户之意，信息抽取，优化排序 (2) 基于视觉网页块分析 (3) 网页库内容分类 (4) 潜在相关性 (5) 网页结构化信息抽取类技术，网页上文本内容的相关性分析 (6) 自然语言处理、简单的语意语法分析 (7) 重复识别 (8) 行业优化 (9) 采集更多的数据 (10) 跟踪互联网变化，细节上的优化，博弈 1.1.3搜索引擎的最新技术发展搜索引擎经过几年的发展和摸索，越来越贴近人们的需求，搜索引擎的技术也得到了很大的发展。搜索引擎的最新技术发展包括以下几个方面[2]： (1) 提高搜索引擎对用户检索提问的理解为了提高搜索引擎对用户检索提问的理解，就必须有一个好的检索提问语言，为了克服关键词检索和目录查询的缺点，现在已经出现了自然语言智能答询。用户可以输入简单的疑问句，比如“how can kill virus of computer