- 1、本文档共77页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
中文rdf知识库构建问题研究与应用-软的件工程专业毕业论文
西南交通大学硕士学位论文主要工作(贡献)声明本人在学位论文中所做的主要工作或贡献如下:
西南交通大学硕士学位论文主要工作(贡献)声明
本人在学位论文中所做的主要工作或贡献如下:
1.研究了大规模网络百科数据采集技术,结合Spring MVC框架与Scrapy框架构 建了一个网络百科数据采集系统,能够满足大规模网络百科数据的采集需求。提出了 一种基于XPath表达式树的代理IP信息自动抽取算法,该方法自动抽取代理IP信息, 有效解决了网站的反爬取问题。
2.提出了利用RDFS语义信息对网络百科抽取数据进行语义标注及RDF数据规范 化的方法,设计并实现了一个基于NE04J的RDF数据图存储系统,与传统的关系型 数据库存储方式进行了比较,结果表明本文实现的存储系统能够满足大规模RDF数据 的存储与查询需求。
3.深入研究了基于中文网络百科异构数据源构建知识库过程中遇到的实体对齐问 题,提出了一种基于实体属性信息及上下文主题特征相结合进行实体对齐的方法,与 传统的实体对齐方法进行了比较,结果表明本论文提出的方法优于现有实体对齐方法, 能够有效解决具有上下文的实体对齐问题。
4.设计并实现了一个中文网络百科RDF知识库自动构建系统,该系统结合了网络 百科数据采集技术、实体信息RDF转化、存储与SPARQL查询技术以及异构数据源实 体对齐方法,能够通过配置采集任务,下载网络百科数据,进行实体数据抽取与RDF
转化与存储,自动构建中文RDF知识库,从而为外部应用提供实体检索与SPARQL查 询的功能。
本人郑重声明:所呈交的学位论文,是在导师指导下独立进行研究工作所得的成 果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体己经发表或撰 写过的研究成果。对本文的研究做出贡献的个人和集体,均己在文中作了明确说明。 本人完全了解违反上述声明所引起的一切法律责任将由本人承担。
学位论文作者签名:
日期: 如尼年岁_|目乃因
万方数据
西南交通大学硕士研究生学位论文
西南交通大学硕士研究生学位论文 第1页
摘要
互联网上的大数据给人类生活带来了丰富的信息,人们只需要通过关键字进行搜 索,就能获取到相关新闻、资料链接。然而,这种通过点击链接的方式使得人类在面 对持续增加的海量数据获取知识与信息时变得十分低效。目前互联网上的信息大多以 网页的形式进行存储与发布,通过超链接的形式将文档关联起来,这种方式使得人类 可以理解文档中的信息,而计算机却难以对文档中的信息进行理解。为了更好地利用 互联网产生的大数据资源,国外已有研究机构从英文维基百科中构建了知识库,如 FreeBase,DBPedia等。国内的知识库有百度知心、搜狗知立方及清华XLore等。知识 库在知识图谱、信息融合及人工智能问答等研究领域具有重要的应用价值。国外的知 识库如FreeBase等提供了公开的资源描述框架数据源,但包含的中文实体数据量较少, 如何构建高质量的中文RDF知识库成为目前的研究热点。
基于上述背景,本文对基于网络百科构建中文RDF知识库的方法进行了研究,并 在以下几个方面开展了工作:
1.深入研究了大规模网络百科数据采集技术,分析了数据采集中遇到的具体问题
与挑战,结合Spring MVC框架与Scrapy框架构建了一个网络百科数据采集系统,爬 取性能稳定且具有良好的人机交互界面。提出了一种代理IP信息自动抽取算法,该方 法能够有效抽取代理IP信息,并解决网站的反爬取问题。
2.研究了针对网络百科数据实体信息抽取技术,提出了利用RDFS语义信息对抽 取数据进行语义标注及RDF数据规范化的方法。研究了RDF数据的图数据库存储方 法,开发了基于NE04J的RDF数据图存储系统,与传统的关系型数据库存储方式进 行了比较,结果表明本文实现的存储系统能够满足大规模RDF数据的存储与查询需求。 3.深入研究了基于百度百科与互动百科异构数据源构建知识库过程中遇到的实体 对齐问题,提出了一种基于实体属性信息及上下文主题特征相结合进行实体对齐的方 法,与传统的实体对齐方法进行了比较,结果表明本论文提出的方法优于现有实体对
齐方法。
4.将大规模网络百科数据采集技术、实体信息RDF转化、存储与SPARQL查询 技术以及异构数据源实体对齐方法相结合,设计并实现了一个中文网络百科RDF知识 库自动构建系统,该系统能够通过配置采集任务,下载网络百科数据,进行实体数据 抽取与RDF转化与存储,从而为外部应用提供实体查询与SPARQL查询的功能。
万方数据
西南交通大学硕士研究生学位论文
西南交通大学硕士研究生学位论文 第1I页 关键词:知识库;资源描述框架;网络采集;信息抽取;图数据库;主题特征;
实体对齐
万方数据
西南交通大学硕士研究生学位论文
西南交通大学硕士研究生学位论文 第1
您可能关注的文档
最近下载
- 海南省海口市(新版)2024小学语文人教版小升初真题(巩固卷)完整试卷(含答案).docx VIP
- 2025-2030中国医学影像设备行业深度调研及投资前景预测研究报告.docx
- 公安院校公安专业本专科招生政治考察表(2022年西藏报考公安院校公安专业招生).doc VIP
- 劳动争议管理制度.docx VIP
- 2024年秋季新北师大版七年级上册数学全册导学案.docx
- 2020-2021学年北京市朝阳区北京版四年级下册期末测试英语试卷.docx VIP
- 骨关节感染患者的护理(外科护理).pptx
- 波形护栏质量检验评定表、报告单.pdf VIP
- 大学《传感器原理及应用》习题解析及期末考试真题.docx VIP
- 基于PLC控制的泡沫切割机-毕业论文.doc VIP
文档评论(0)