基于XML的Web信息抽取技术研究-计算机软件与理论专业论文.docxVIP

下载本文档

2
0
约5.33万字
约 64页
2019-02-15 发布于上海
举报
版权申诉

基于XML的Web信息抽取技术研究-计算机软件与理论专业论文.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第第 1 章绪论沈阳理工大学硕士学位论文沈阳理工大学硕士学位论文 - - PAGE 13 - - - PAGE 10 - 第 1 章绪论 1.1 研究背景及意义 2009 年 1 月 13 日，中国互联网络信息中心（CNNIC）在京发布了《第 23 次中国互联网络发展状况统计报告》。报告显示，截至 2008 年底，中国的网站数，即域名注册者在中国境内的网站数（包括在境内接入和境外接入）达到 287.8 万个，中国网页总数超过 160 亿个，网页总数据量达 460，217，386，099KB。面对如此庞大的数据，如何从海量 Web 网页中获取相关信息就成了一个亟待解决的问题[1]。 Web 使人们获得大量信息的同时，也带来了很多需要解决的问题。由于网络的方便快捷，使得在 Web 上发布的各种信息急剧增长，Web 上海量的信息使用户使用的时候产生了巨大的困难，用户为了获得相关信息，可能浪费大量的时间来进行信息搜索，查看大量的网页，而且查找的资料可能并不是很精确。虽然现在的搜索引擎很多，而且基于不同的算法，但是搜索到的结果可能是一个并不理想的网页超链接集合，详细的信息还需要用户进入网页查找。因为这些网页只是包含有用户输入的关键字，集合中的有些网页并不是用户感兴趣的。所以通过这种方式查找信息浪费了大量的人力、物力和时间。另外，HTML 是 Web 网页的主要存在形式，而 HTML 是半结构化的 Web 开发语言，计算机并不能很好的理解它们，更不能像结构化的数据库一样可以提供功能强大，而且高效的 SQL 语言。让用户使用 Web 信息与使用数据库一样简单，这是信息抽取的目的。为了更好的解决上述的各种问题，有必要对 Web 信息抽取进行更深入的研究。 1.2 信息抽取的对象和任务信息抽取系统是将信息从各种文档中，如 Web 网页等，抽取后组织成可以直接利用的、结构化的，并且存储到数据库的系统[2]。信息抽取的对象主要是大量芜杂的信息，信息抽取是将这些信息进行提取、整理、组织成利于查找和使用的形式。信息抽取任务是由消息理解会议（MUC）定义的，不同的任务有着不同的规范，而且不同的任务有着各自的评价体系标准，根据抽取的内容和抽取出的信息的语义相关度的差别，信息抽取的任务[3]分为： (1) 命名实体识别信息抽取[4]（NE，Named Entity Recognition）,简单的说，NE 的任务就是将信息中名字、日期、地点、数字表达式等提取出来，并对各类信息进行分别存放。在对实体信息进行识别的过程中应对它在文本中的位置进行标记，对这类信息的检索。 (2) 多语言实体识别信息抽取[5（] MET，Multilingual Entity Task），MET 可以对中文、韩文等多种语言的命名实体进行抽取，并不局限于英语实体。 (3) 模板元素信息抽取[6]（TE，Template Element），TE 主要利用了不同的实体具有各自特定的描述信息和方式的特点，将这种特点和实体本身进行联系来抽取信息。首先，将与实体有关联的标志信息提取出来，将这些信息看作是这个实体的属性，实体和这些属性作为一个实体对象。 (4) 参照信息抽取（CO，Coreference），在同一个文档中，CO 主要是将同一实体的描述信息组织成一个整体，并分析此实体在不同位置的主要情况；当这个实体在不同文档时，分析它与别的实体的关系。CO 有助于情节信息的抽取。 (5) 情节模板信息抽取（ST，Scenario Template），ST 是以发生的事的时间为抽取对象，并将时间和其他实体连结为一个整体。ST 需要的是时间实体和它的属性，将除时间外的其他实体对应到事件的相应位置，通过这些联系模拟出事件原型。以上的任务都是信息抽取的核心，不同的信息抽取用到不同的任务。 1.3 信息抽取发展趋势信息抽取技术未来的发展趋势主要集中在两个发展方向上：一方面，使信息抽取技术嵌入在现有的应用系统中，包括文本检索、基于任务的自动摘要、基于任务的机器翻译、跨文档和多媒体的融合等，现有的技术能够很好地支持类似系统；另一方面，对信息抽取的基础算法和与之相适应的测评机制的研究。另外，信息抽取系统一般不单独使用，往往是为其它系统提供技术工具，信息抽取过程往往不需要人机交互[7]。 HTML 格式的文档构成了 Internet 中大部分的网页，包含着大量的数据资源，同时隐蔽网[8]（HiddenWeb）也隐藏了相当数量的数据信息，这些都是对网民极其有用的信息资源，相关的信息抽取也成为了研究的热点。对于图片、声音和视频等内容的抽取比较困难，但通过贝叶斯算法等的抽取系统，可以得到较优质的结果。由于 XML