- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
摘要
摘要
基于
基于 XML 的 Web 信息抽取研究
-I-
-I-
-
- PAGE IV-
摘 要
随着互联网的迅速发展,Web 上信息量急速增加,Web 已经发展成为一个巨 大的分布和共享信息资源的平台,如何从中获得想要的信息成为亟待解决问题, Web 信息抽取技术由此产生。Web 信息抽取是从已经存在多年的信息抽取技术中 繁衍出来的,它继承和发展了信息抽取领域的一些关键技术,并结合 Web 页面 自身的特点,它是把互联网上存在的网页作为信息源,从中抽取用户感兴趣信 息的过程。
可扩展标记语言 XML 技术的出现,为 Web 的信息抽取和应用提供强有力的 支持。我们可以把页面文档解析成 DOM 树的结构,对页面的操作转化为对 DOM 树的处理,然后采用 XPath 路径表达式定位 DOM 树中节点;XSLT 是 XML 文档的 转换语言,有了它我们可以对已知 XML 文档编写抽取规则,实现 XML 文档与 Web 页面的转换。
本文结合 XML 技术优势实现对 Web 网页的信息抽取,构建了一个基于 XML 的 Web 信息抽取系统,提出了基于最小 DOM 树的信息定位方法。本文首先将待 抽取的 Web 页面通过工具 HTML Tidy 进行优化,将 HTML 文档转换成符合 XML 语法的 XHTML 文档,然后采用 DOM4J 软件包在 JAVA 平台下将 Web 页面解析为 DOM 树结构;依据信息模型和知识库提供的文本,对 DOM 树中的文本进行匹配, 当匹配程度大于设定的阈值时,我们可以认定当前页面中包含要抽取的信息, 将返回匹配成功的信息的 XPath 路径并存入信息路径表;根据信息路径表获取 最小 DOM 树的路径,生成针对当前站点的抽取规则;把抽取结果存储为 XML 文 档格式,在已知抽取结果 XML 文档的基础上,根据应用的需要,利用 XSLT 生成 针对 XML 文档的抽取规则,在兼容 XSLT 的浏览器上都可以运行显示。
本文的信息抽取系统目标并不是构建一个通用的信息抽取系统,而是针对 某一领域或者说是针对某一类的信息构建的抽取系统,需要系统的构建者制定 抽取领域的信息模和建立对应的知识库。在本文的实验室中,针对某一网站的 招聘信息进行抽取,建立了简单信息模型和知识库;根据获取的最小 DOM 树的 XPath 路径生成抽取规则,并把抽取结果存储为格式良好的 XML 文档。
关键字:信息抽取,Web,XML,DOM 树,XSLT
Abstract
With the explosion of Web, the rapid development of the Internet has become an important source of global information dissemination and sharing, how to get the
piece of information what we want from the web has bee become a serious problem,
Under this background,technique of web information extraction occurs. I t is inherited from Information Extraction technique that came into effect many years ago. What’s more, it inherits and develops some key techniques of information
extraction field, and combined with the characteristics of web pages. The internet is the source of web information extraction system which extract the information users interest in.
XML came forth and became factual criterion to express internet information ,it provides many supports to the extraction technique of Web information. To build DOM tree, based on standard XSLT XPath , we can locate the information and produce the general rules.
This paper apply st
您可能关注的文档
- 基于Xen虚拟化的内核态rootkit检测-计算机技术专业论文.docx
- 基于Xen虚拟化技术的混合监控度量框架研究-计算机科学与技术专业论文.docx
- 基于XEN虚拟监控器的安全访问控制技术研究-计算机技术专业论文.docx
- 基于Xen硬件虚拟化的磁盘文件操作监控系统-计算机系统结构专业论文.docx
- 基于Xface藏语TTVS的实现-电子与通信工程专业论文.docx
- 基于xFace的手机终端Widget应用开发-软件工程专业论文.docx
- 基于XFEM的钢制梳形板裂纹扩展分析-工程力学专业论文.docx
- 基于XFEM的异种金属焊接接头的延性断裂模拟-车辆工程专业论文.docx
- 基于XFS标准的自助设备运营管理系统的设计与实现-软件工程专业论文.docx
- 基于XGY公司战略目标的学习型组织研究-工商管理专业论文.docx
- 基于XML的Web整合研究及其在多数据库系统中应用-计算机应用技术专业论文.docx
- 基于XML的半结构化数据处理方法与应用研究-计算机科学技术专业论文.docx
- 基于XML的半结构化数据存储技术研究-计算机应用技术专业论文.docx
- 基于XML的残疾人数据库管理系统的相关技术-系统工程专业论文.docx
- 基于XML的产品数据模式、存储及共享模型的研究-机械制造及其自动化专业论文.docx
- 基于XML的产品信息在线交换分析及应用-软件工程专业论文.docx
- 基于XML的超声内镜检查辅助处理-软件工程专业论文.docx
- 基于XML的程序设计自动批改的研究-计算机应用技术专业论文.docx
- 基于XML的代码移动-软件工程专业论文.docx
- 基于XML的地理数据集成研究及其应用-计算机软件与理论专业论文.docx
最近下载
- 人教版(新插图)五年级上册数学全册教学课件.pptx
- 《机械制图与CAD绘图》课件——剖视图.pptx VIP
- TEAC V-970X_R-919X三磁头卡座维修手册.pdf
- 03S402 室内管道支架及吊架.docx VIP
- 体例格式6:工学一体化课程《windows服务器基础配置与局域网组建》任务7学习任务分析表.docx VIP
- 【初中生物】光合作用第一课时 2024--2025学年北师大版生物七年级上册(2024版).pptx VIP
- 高标准农田高效节水灌溉工程建设项目建议书.pdf VIP
- 统编版(2024新版)七年级上册历史必背知识点提纲详细版 .pdf VIP
- SL 228-2013 混凝土面板堆石坝设计规范.pdf VIP
- 个人简历表格下载word(最新).pdf VIP
原创力文档


文档评论(0)