基于机器学习的Web信息提取技术的研究-计算机应用技术专业论文.docxVIP

下载本文档

4
0
约5.18万字
约 58页
2019-02-19 发布于上海
举报
版权申诉

基于机器学习的Web信息提取技术的研究-计算机应用技术专业论文.docx

1、本文档共58页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

华中科技大学硕士学位论文一= 华中科技大学硕士学位论文一= ==；===—========；===========≈；= 摘要 l、随着wjrld Wide Web逐步成为全球最大的信息知识库，如何高效迅速地从这个知识库中提取有用信息已经成为信息处理领域的研究重点。传统信息提取技术的研究侧重于通过一定的语义分析，对规范、结构化的文本进行信息分类和处理。但W曲信息不属于规范的结构化文本范畴，它是介于结构化文本和非结构化文本之间的半结构文本，其文本结构无法确定，传统的语义分析也不再适用，于是设计能够适用于Web信息的提取方法势在必行。}，机器学习的介入为Web信息的提取开辟了新的研究方向，其自适应机制能够较好的适应Web信息的动态性和松散性，使系统在提取Web信息时可根据反馈信息自动完成旧规则的修改和新规则的推导。目前国内外对基于机器学习的Web信息提取有一些研究，但这些算法在实际应用中表现出种种缺陷，因此改进已有算法和提出新的算法显得尤为重要。通过一定的分析和比较，给出了两种新的基于机器学习的Web信息提取算法并且对原有FOIL算法进行了有效改进，并在实验基础上对每个算法的性能进行了全面的分析和评估。针对FOIL算法在学习不相邻网页间复杂联系时表现出来的不确定性，提出了一种基于网页间联系的新的路径学习算法；多策略学习算法将多个学习算法相结合，解决了单一机器学习算法推导提取规则时的片面性问题，所得规则能更全面地反映 Web信息的分布规律：基于模板填充标记的学习算法采用自底向上推导规则的模块层叠方法，通过在提取模板中填充一定数量的有助于识别信息类别的SGML标记，使算法能覆盖Web页中的不可见信息，可有效控制学习过程中信息的遗漏和溢出，实现智能化web信息提取。此外，将研究的算法应用于国家药品监督管理总局“Intemet上药品信息及电子商务监管系统”的开发中，实验结果表明上述三种算法在信息查全率和提取精确度上较现有算法有较大的提高。关键词：机器≥乌；web f施提取；FoIL叠法；多秉略学习；填君蒜记 AbstractWorld Abstract World WIde Web is becoming the largest information base in the world，How to effectively and rapidly extract usefu／information from this information base has become an emphasis in domain of information．transaction research．Traditional information extraction technology,which is based on some of scrnantic analysis，only classifies and deals with normative document collections．Web information iS not belong to formal structured text,but is the semi．structured text that falIs between structured text and free text．Its structure is uncertain and traditional semantic analysis is unsuitable．So designing a new information extraction method on the W曲is imperative． The introduction of machine／earning exploits a new research domain for Web information extraction．nle self-learning ability of machine learning is suitable to dynamic and loose Web information．It Can automatically amend old rules and induce new ones by feedback information when extracting W曲information．Although there has been some research 0n Web information extraction based 0n machine learning at present，those methods always