- 1、本文档共58页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
华中科技大学硕士学位论文一=
华中科技大学硕士学位论文
一= ==;===—========;===========≈;=
摘 要
l、随着wjrld Wide Web逐步成为全球最大的信息知识库,如何高效迅速地从这个知 识库中提取有用信息已经成为信息处理领域的研究重点。传统信息提取技术的研究侧 重于通过一定的语义分析,对规范、结构化的文本进行信息分类和处理。但W曲信息 不属于规范的结构化文本范畴,它是介于结构化文本和非结构化文本之间的半结构文 本,其文本结构无法确定,传统的语义分析也不再适用,于是设计能够适用于Web信 息的提取方法势在必行。},
机器学习的介入为Web信息的提取开辟了新的研究方向,其自适应机制能够较好 的适应Web信息的动态性和松散性,使系统在提取Web信息时可根据反馈信息自动完 成旧规则的修改和新规则的推导。目前国内外对基于机器学习的Web信息提取有一些 研究,但这些算法在实际应用中表现出种种缺陷,因此改进已有算法和提出新的算法 显得尤为重要。
通过一定的分析和比较,给出了两种新的基于机器学习的Web信息提取算法并且 对原有FOIL算法进行了有效改进,并在实验基础上对每个算法的性能进行了全面的分 析和评估。针对FOIL算法在学习不相邻网页间复杂联系时表现出来的不确定性,提出 了一种基于网页间联系的新的路径学习算法;多策略学习算法将多个学习算法相结合, 解决了单一机器学习算法推导提取规则时的片面性问题,所得规则能更全面地反映 Web信息的分布规律:基于模板填充标记的学习算法采用自底向上推导规则的模块层 叠方法,通过在提取模板中填充一定数量的有助于识别信息类别的SGML标记,使算 法能覆盖Web页中的不可见信息,可有效控制学习过程中信息的遗漏和溢出,实现智 能化web信息提取。
此外,将研究的算法应用于国家药品监督管理总局“Intemet上药品信息及电子 商务监管系统”的开发中,实验结果表明上述三种算法在信息查全率和提取精确度上 较现有算法有较大的提高。
关键词:机器≥乌;web f施提取;FoIL叠法;多秉略学习;填君蒜记
AbstractWorld
Abstract
World WIde Web is becoming the largest information base in the world,How to effectively and rapidly extract usefu/information from this information base has become an emphasis in domain of information.transaction research.Traditional information extraction
technology,which is based on some of scrnantic analysis,only classifies and deals with normative document collections.Web information iS not belong to formal structured text,but is the semi.structured text that falIs between structured text and free text.Its structure is uncertain and traditional semantic analysis is unsuitable.So designing a new information
extraction method on the W曲is imperative.
The introduction of machine/earning exploits a new research domain for Web information extraction.nle self-learning ability of machine learning is suitable to dynamic and loose Web information.It Can automatically amend old rules and induce new ones by feedback information when extracting W曲information.Although there has been some research 0n Web information extraction based 0n machine learning at present,those methods always
您可能关注的文档
- 基于机器视觉的智能空瓶检测机器人研究-控制理论与控制工程专业论文.docx
- 钾离子通道和ccr5受体的分子动力学模拟及拮抗剂的定量构效关系分析-有机化学专业论文.docx
- 基于机器视觉的智能磨削进给系统的研究-机械工程专业论文.docx
- 钾离子通道和ccr5受体的分子动力学模拟及拮抗剂的定量构效关系研究-有机化学专业论文.docx
- 基于机器视觉的智能啤酒瓶污损检测系统的研究与设计-控制科学与工程专业论文.docx
- 钾离子通道基因KCNJ15在重型病毒性肝炎中的作用及免疫学机制分析-内科学(传染病)专业论文.docx
- 基于机器视觉的智能手持式数据采集仪-电路与系统专业论文.docx
- 基于机器视觉的重轨表面缺陷成像方法与系统设计-机械工程专业论文.docx
- 基于机器视觉的轴承表面缺陷检测技术研究-测试计量技术与仪器专业论文.docx
- 基于混沌优化的有约束预测控制算法的研究-控制科学与工程专业论文.docx
- 市科技局副局长在理论学习中心组学习2025年全国两会精神研讨发言材料.docx
- 在深入贯彻中央八项规定精神学习教育读书班开班式上的讲话1.docx
- 关于开展深入贯彻中央八项规定精神学习教育的工作方案.docx
- 市国资委党委书记学习2025年全国两会精神专题研讨发言材料.docx
- 在2025年作风建设专题“读书班”上的研讨发言材料(八项规定).docx
- 在县政府全体会议暨廉政工作会议上的讲话4.docx
- 关于我市农村电商发展情况的调研报告.docx
- 在某某区安全生产重点工作安排部署会上的讲话.docx
- 市发改局党组书记在理论学习中心组会上学习2025年全国两会精神的研讨发言材料1.docx
- 商务局委员会(商务局)基层党组织“分类指导、争先进位”工作方案.docx
文档评论(0)