Web信息抽取规则优化及规则XQuery表达.pdf

摘要 摘要 Wide Web已经发展成为全球传播与共享科 随着Internet的飞速发展,World 研、教育、商业和社会生活等方面最重要和最具潜力的信息资源。而以HTML标 记语言发布的Web信息面向显示.缺乏模式信息和语义信息,为了更有效的管理 和组织Web信息,实现对Web信息高效的杏询与检索,XML及其相关规范随之 涎生了,并成为了人们公认的信启、交换标准。XML将Web信息的语义与显示分 离开来,通过定义带有语义信息的标记,提供了应用程序处理Web信息时所需的 语义信息。但是,Web上大量存在的有价值的信息仍然是HTML格式的,为了以 结构化和一致的方式访问Web信息,人们采用了信息抽取技术,并成为当前研究 热点之一。 水文在分析影响信息抽取准确率和召回率的各种因素的基础上,改进了基于 HTML结构的Web信息抽取方法。在仔细研究这方面的典型系统和方法,深入分 析抽取依据,网页结构与语义模式匹配性的基础上,该方法引入了相互联系的三 层规则:初始规则、最优规则和基于XQu

文档评论(0)

1亿VIP精品文档

相关文档