摘要
摘要
Wide
Web已经发展成为全球传播与共享科
随着Internet的飞速发展,World
研、教育、商业和社会生活等方面最重要和最具潜力的信息资源。而以HTML标
记语言发布的Web信息面向显示.缺乏模式信息和语义信息,为了更有效的管理
和组织Web信息,实现对Web信息高效的杏询与检索,XML及其相关规范随之
涎生了,并成为了人们公认的信启、交换标准。XML将Web信息的语义与显示分
离开来,通过定义带有语义信息的标记,提供了应用程序处理Web信息时所需的
语义信息。但是,Web上大量存在的有价值的信息仍然是HTML格式的,为了以
结构化和一致的方式访问Web信息,人们采用了信息抽取技术,并成为当前研究
热点之一。
水文在分析影响信息抽取准确率和召回率的各种因素的基础上,改进了基于
HTML结构的Web信息抽取方法。在仔细研究这方面的典型系统和方法,深入分
析抽取依据,网页结构与语义模式匹配性的基础上,该方法引入了相互联系的三
层规则:初始规则、最优规则和基于XQu
您可能关注的文档
最近下载
- 2026年-《思想道德与法治(2023版)》电子教材-新版.pdf
- 毛石、碎石、砾石的区别及有图片.pdf VIP
- GB 51421-2020架空光(电)通信杆路工程技术标准.pdf
- (最新版)200以内的加减法练习题1000题(A4纸直接打印)10.docx VIP
- 智者戏谑阅读王小波戴锦华.pdf VIP
- 2026年3月襄阳市高三年级统一调研测试(一模)政治试卷(含答案详解).pdf
- 2025年广东省广州市中考历史一模试卷.docx VIP
- 期货指标之王文华期货软件指标公式源码.doc VIP
- 工程制图基础 天津大学离线考核题库及答案.pdf VIP
- 工程维修“拉闸”管理指引.pdf VIP
原创力文档

文档评论(0)