- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Web信息抽取系统的设计与实现-软件工程专业论文
Classified Index: TP311 U.D.C.: 621.3
Dissertation for the Master’s Degree in Engineering
DESIGN AND IMPLEMENTATION OF WEB INFORMATION EXTRACTION SYSTEM
Candidate:
Ding Qiaoyi
Supervisor:
Associate Professor Zhang Yu
Associate Supervisor:
Senior Engineer Sun Yiming
Academic Degree Applied for:
Master of Engineering
Speciality:
Software Engineering
Affiliation:
School of Software
Date of Defence:
June, 2012
Degree-Conferring-Institution:
Harbin Institute of Technology
哈尔滨工业大学工程硕士学位论文
哈尔滨工业大学工程硕士学位论文
-
- I -
摘 要
当前 Web 上承载的海量信息,使得它变成了人们日常生活中获取信息的一个 重要源头。探索一种方便人们从万维网的海量信息中挖掘出自己所需要的内容的 方法变得越来越重要。Web 信息抽取就是众多方法中的一个有效解决方案。本课 题来自于阿里巴巴(中国)网络技术有限公司搜索平台部内容系统组的实际需求。
本课题所研究的内容是,从 Web 信息抽取应用领域出发,通过基于抽取对象 和 Web 页面结构的特点,分析了系统需要解决的信息抽取问题;并且针对这些问 题,分别提出了有针对性的抽取解决方案。基于这些抽取方案,本课题设计和实 现一个能够从万维网中抽取用户需要信息的 Web 信息抽取系统。
在完成本课题的过程中,作者分析了 Web 信息抽取解决的问题,定义了典型 的信息抽取目标;并以此为基础阐述了一种表示 Web 网页内容中结构化信息的数 据模型。作者进行了系统业务场景的应用描述,并以此归纳成为系统的基本需求, 依据软件开发生命周期,依次从需求分析、系统设计和实现以及系统测试这几个 方面,详细介绍了课题系统的设计和实现。在此过程中,本文使用用例模型分析 和总结了系统的功能性需求。然后,以此模型为基础设计了整个系统的功能模块 和系统体系结构。作为这一部分的核心,针对系统抽取任务工作引擎和 Http 服务 器框架这两个组件的设计和实现,本文借助类图、时序图、流程图模型对它们进 行了重点的介绍。另外,本文也对系统中使用的几种 Web 信息抽取算法,如基于 模板信息抽取算法、列表信息抽取算法的思想和实现做了详细介绍,并且进行了 一定的算法分析和评价。最后,通过系统测试和算法测评证明了系统可以满足预 先定义的需求。
关键字:Web 信息挖掘;Web 信息抽取;基于模板信息抽取;列表信息抽取
-
- II -
Abstract
Nowadays, the Web which is based on the Internet, is playing a more and more important role in people’s daily life. There is lots of information conveyed by the Web, which makes it a significant information source in people’s life. Finding a convenient way of digging the desired information from the vast amount of the data on the Web is very important. Web information extraction is one of the useful solutions. This program comes from search platform department at Alibaba.
The thesis is mainly about the analysis of Web extaction problem, according to its application fields. The thesis defined the extaction problems, from the view of the extraction tragets’ and Web pages’ features, and also put forward specific
您可能关注的文档
- UHF射频识别系统中的天线分析与设计-电子与通信工程专业论文.docx
- UHF频段无线收发模块的设计与实现-电路与系统专业论文.docx
- UHF频段耳蜗式多工器的研究-微电子学与固体电子学专业论文.docx
- UHMWPE关节置换材料的耐磨改性研究-材料加工工程专业论文.docx
- UHMWPE纤维性能及其应用研究-纺织材料与纺织品设计专业论文.docx
- UHF频段RFID系统中运动物体方向与速度识别的研究-电路与系统专业论文.docx
- UHF频段RFID读写器系统的研究-计算机应用技术专业论文.docx
- UHMWPE纳米纤维增强PBS基复合材料的 制备与降解行为研究-材料工程专业论文.docx
- UHMWPE超高分子量聚乙烯的链缠结初始研究-物理化学专业论文.docx
- UHRF1在骨肉瘤细胞侵袭过程中的作用及其机制研究-外科学专业论文.docx
- WEB信息整合平台设计与实现-计算机软件与理论专业论文.docx
- WEB内容监控的研究与实现-信息安全专业论文.docx
- Web信息自动抽取技术的研究-计算机软件与理论专业论文.docx
- Web内容管理系统的设计与实现-计算机应用技术专业论文.docx
- Web内容管理系统设计与实现-计算机科学与技术专业论文.docx
- Web内容自适应控制模型的设计与实现-计算机应用技术专业论文.docx
- Web安全评估与建议系统的研究与实现-软件工程专业论文.docx
- Web图形化建筑能耗监测系统设计与应用-控制工程专业论文.docx
- Web图像搜索中基于GPU的图像分割技术研究-计算机软件与理论专业论文.docx
- Web容器差分服务技术研究计算机技术专业论文.docx
最近下载
- SYT 5547-2000螺杆钻具使用、维修和管理.pdf
- 第三方产品节能环保ccc证书---服务器.docx VIP
- 一种连续酶解制备蛋白肽的系统及工艺.pdf VIP
- (高清版)B-T 40815.2-2021 电气和电子设备机械结构 符合英制系列和公制系列机柜的热管理 第2部分:强迫风冷的确定方法.pdf VIP
- 2025幼儿园园级家委会ppt全新 .pdf VIP
- PEP人教版六年级下册英语全册导学案.pdf VIP
- 鲁科版六年级上生物思维导图.pptx
- 电商运营方案电商运营方案.pptx VIP
- 计数型MSA测量系统分析报告(模板).xls VIP
- 发展低空经济课件.pptx VIP
文档评论(0)