Web信息抽取系统的设计与实现-软件工程专业论文.docxVIP

下载本文档

2
0
约8.31万字
约 92页
2018-09-06 发布于上海
举报
版权申诉

Web信息抽取系统的设计与实现-软件工程专业论文.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Web信息抽取系统的设计与实现-软件工程专业论文

Classified Index: TP311 U.D.C.: 621.3 Dissertation for the Master’s Degree in Engineering DESIGN AND IMPLEMENTATION OF WEB INFORMATION EXTRACTION SYSTEM Candidate: Ding Qiaoyi Supervisor: Associate Professor Zhang Yu Associate Supervisor: Senior Engineer Sun Yiming Academic Degree Applied for: Master of Engineering Speciality: Software Engineering Affiliation: School of Software Date of Defence: June, 2012 Degree-Conferring-Institution: Harbin Institute of Technology 哈尔滨工业大学工程硕士学位论文哈尔滨工业大学工程硕士学位论文 - - I - 摘要当前 Web 上承载的海量信息，使得它变成了人们日常生活中获取信息的一个重要源头。探索一种方便人们从万维网的海量信息中挖掘出自己所需要的内容的方法变得越来越重要。Web 信息抽取就是众多方法中的一个有效解决方案。本课题来自于阿里巴巴（中国）网络技术有限公司搜索平台部内容系统组的实际需求。本课题所研究的内容是，从 Web 信息抽取应用领域出发，通过基于抽取对象和 Web 页面结构的特点，分析了系统需要解决的信息抽取问题；并且针对这些问题，分别提出了有针对性的抽取解决方案。基于这些抽取方案，本课题设计和实现一个能够从万维网中抽取用户需要信息的 Web 信息抽取系统。在完成本课题的过程中，作者分析了 Web 信息抽取解决的问题，定义了典型的信息抽取目标；并以此为基础阐述了一种表示 Web 网页内容中结构化信息的数据模型。作者进行了系统业务场景的应用描述，并以此归纳成为系统的基本需求，依据软件开发生命周期，依次从需求分析、系统设计和实现以及系统测试这几个方面，详细介绍了课题系统的设计和实现。在此过程中，本文使用用例模型分析和总结了系统的功能性需求。然后，以此模型为基础设计了整个系统的功能模块和系统体系结构。作为这一部分的核心，针对系统抽取任务工作引擎和 Http 服务器框架这两个组件的设计和实现，本文借助类图、时序图、流程图模型对它们进行了重点的介绍。另外，本文也对系统中使用的几种 Web 信息抽取算法，如基于模板信息抽取算法、列表信息抽取算法的思想和实现做了详细介绍，并且进行了一定的算法分析和评价。最后，通过系统测试和算法测评证明了系统可以满足预先定义的需求。关键字：Web 信息挖掘；Web 信息抽取；基于模板信息抽取；列表信息抽取 - - II - Abstract Nowadays, the Web which is based on the Internet, is playing a more and more important role in people’s daily life. There is lots of information conveyed by the Web, which makes it a significant information source in people’s life. Finding a convenient way of digging the desired information from the vast amount of the data on the Web is very important. Web information extraction is one of the useful solutions. This program comes from search platform department at Alibaba. The thesis is mainly about the analysis of Web extaction problem, according to its application fields. The thesis defined the extaction problems, from the view of the extraction tragets’ and Web pages’ features, and also put forward specific