面向网络数据的信息抽取研究与应用-计算机软件与理论专业毕业论文.docxVIP

下载本文档

13
0
约6.11万字
约 64页
2019-05-11 发布于上海
举报
版权申诉

面向网络数据的信息抽取研究与应用-计算机软件与理论专业毕业论文.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

国内图书分类号：TP301．6密级：公开国际图书分类号：681．14西南交通大学研究生学位论文面包圆络数握的筻皇擅塾研究生应用年姓专二零一五年五月一令一直=牛丑月万方数据Classified Index：TP30 1．6 U．D．C：681．14Southwest Jiaotong UniversityMaster Degree ThesisInformation Extraction Re search and Applicationfrom Network DataGrade：2012 Candidate：Bai YuAcademic Degree Applied for：MasterSpeciality：Computer Software and Theory Supervisor：Prof．Dai QiMay,2015万方数据西南交通大学学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定，同意学校保留并向国家有关部门或机构送交论文的复印件和电子版，允许论文被查阅和借阅。本人授权西南交通大学可以将本论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复印手段保存和汇编本学位论文。本学位论文属于1．保密口，在年解密后适用本授权书：2．不保密翻，使用本授权书。 (请在以上方框内打“√”)学位论文作者签名：柏玉指导老师签名：日期：劢肚、7、7日期：加f；·7·7·万方数据西南交通大学硕士学位论文主要工作(贡献)声明本人在学位论文中所做的主要工作或贡献如下： l、研究了HttpClient代理服务器使用动态IP下载数据的方法。针对豆瓣网、大众点评网、百度百科、互动百科下载网页源码时面临的数据保护、封禁IP的问题，采用HttpClient代理服务器开启多线程并使用多个免费代理IP地址循环下载。 2、研究了半结构化的信息抽取。根据豆瓣电影、音乐、读书、大众点评、百度百科、互动百科信息盒中半结构化数据的特点，结合正则表达式与字符串匹配，提出了一种半结构化数据的半自动信息抽取方法。3、研究了非结构化的信息抽取，提出了属性分层构建、属性统一的方法。研究内容包括百度百科、互动百科这些网络百科，从仅能为人所阅读及理解的自由文本中抽取结构化信息。针对中文网络百科非结构化信息抽取中同一种属性用词不同，导致属性过多，且相同属性与其他百科命名不一致，难以将不同的百科建立统一的知识库问题，提出了属性分层构建、属性统一的方法。4、使用资源描述框架构建知识库。在得到结构化数据之后，将这些数据整理为统一格式，然后使用资源描述框架三元组的方法将所获取的不同来源的结构化数据建立各自的知识库。本人郑重声明：所呈交的学位论文，是在导师指导下独立进行研究工作所取得的成果。除文中已经注明引用的内容外，本论文不包含任何其他个人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体，均己在文中作了明确说明。本人完全了解违反上述声明所引起的一切法律责任将由本人承担。学位论文作者签名：7婚王日期：劢f上。7。7万方数据西南交通大学硕士研究生学位论文第1页捅安随着因特网的发展，人类的社会活动开始广泛使用人工智能技术，该技术的应用发展通常需要构建不等规模的知识库来为其做后台数据支撑。而知识库的建设往往需要从海量的半结构化、非结构化网络信息中抽取出结构化数据。本文研究的重点是面向海量的互联网网络数据做信息抽取，主要包括网页数据的收集整理、半结构化信息抽取、非结构化信息抽取和资源描述框架三元组构建知识库四个方面内容。豆瓣网、大众点评网、中文网络百科等海量网络数据中包含了大量半结构化、非结构化数据，这些数据是信息抽取的很好数据源。目前大多数网站有数据反抓取保护，从以上网站收集数据时遇到封禁口，很难爬取到该网站全部数据的困难；以及由于中文网络百科属性是由无数网友人工自定义的，导致了属性多达几千个，之前的研究者都只是抽取了属性词频较高的少量属性的知识，而放弃了对大多数属性知识的抽取。针对以上难题，同时以构建结构化知识库为目的，本文完成了以下步骤的工作，并提出了以上困难的解决方案。具体内容如下：第一，本文研究了HttpClient代理服务器使用动态IP下载数据的方法。针对豆瓣网、大众点评网、百度百科、互动百科下载网页源码时遇到封禁IP的数据保护问题，采用HttpClient代理服务器开启多线程并使用多个免费代理Ⅲ循环下载。第二，对于半结构化数据的抽取，研究了一种基于正则表达式的半自动抽取方法。根据豆瓣、大众点评、中文网络百科中半结构化数据的特点，结合正则与字符串匹配，提出了一种半自动的信息抽取方法。第三，对于非结构化数据的抽取，研究了属性构建的方法。针对中文网络百科非结构化信息抽取