- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
中文rdf知识库构建问题研究与应用软件工程专业论文
西南交通大学硕士学位论文主要工作(贡献)声明本人在学位论文中所做的主要工作或贡献如下:
西南交通大学硕士学位论文主要工作(贡献)声明
本人在学位论文中所做的主要工作或贡献如下:
1.研究了大规模网络百科数据采集技术,结合Spring MVC框架与Scrapy框架构 建了一个网络百科数据采集系统,能够满足大规模网络百科数据的采集需求。提出了 一种基于XPath表达式树的代理IP信息自动抽取算法,该方法自动抽取代理IP信息, 有效解决了网站的反爬取问题。
2.提出了利用RDFS语义信息对网络百科抽取数据进行语义标注及RDF数据规范 化的方法,设计并实现了一个基于NE04J的RDF数据图存储系统,与传统的关系型 数据库存储方式进行了比较,结果表明本文实现的存储系统能够满足大规模RDF数据 的存储与查询需求。
3.深入研究了基于中文网络百科异构数据源构建知识库过程中遇到的实体对齐问 题,提出了一种基于实体属性信息及上下文主题特征相结合进行实体对齐的方法,与 传统的实体对齐方法进行了比较,结果表明本论文提出的方法优于现有实体对齐方法, 能够有效解决具有上下文的实体对齐问题。
4.设计并实现了一个中文网络百科RDF知识库自动构建系统,该系统结合了网络 百科数据采集技术、实体信息RDF转化、存储与SPARQL查询技术以及异构数据源实 体对齐方法,能够通过配置采集任务,下载网络百科数据,进行实体数据抽取与RDF
转化与存储,自动构建中文RDF知识库,从而为外部应用提供实体检索与SPARQL查 询的功能。
本人郑重声明:所呈交的学位论文,是在导师指导下独立进行研究工作所得的成 果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体己经发表或撰 写过的研究成果。对本文的研究做出贡献的个人和集体,均己在文中作了明确说明。 本人完全了解违反上述声明所引起的一切法律责任将由本人承担。
学位论文作者签名:
日期: 如尼年岁_|目乃因
万方数据
西南交通大学硕士研究生学位论文
西南交通大学硕士研究生学位论文 第1页
摘要
互联网上的大数据给人类生活带来了丰富的信息,人们只需要通过关键字进行搜 索,就能获取到相关新闻、资料链接。然而,这种通过点击链接的方式使得人类在面 对持续增加的海量数据获取知识与信息时变得十分低效。目前互联网上的信息大多以 网页的形式进行存储与发布,通过超链接的形式将文档关联起来,这种方式使得人类 可以理解文档中的信息,而计算机却难以对文档中的信息进行理解。为了更好地利用 互联网产生的大数据资源,国外已有研究机构从英文维基百科中构建了知识库,如 FreeBase,DBPedia等。国内的知识库有百度知心、搜狗知立方及清华XLore等。知识 库在知识图谱、信息融合及人工智能问答等研究领域具有重要的应用价值。国外的知 识库如FreeBase等提供了公开的资源描述框架数据源,但包含的中文实体数据量较少, 如何构建高质量的中文RDF知识库成为目前的研究热点。
基于上述背景,本文对基于网络百科构建中文RDF知识库的方法进行了研究,并 在以下几个方面开展了工作:
1.深入研究了大规模网络百科数据采集技术,分析了数据采集中遇到的具体问题
与挑战,结合Spring MVC框架与Scrapy框架构建了一个网络百科数据采集系统,爬 取性能稳定且具有良好的人机交互界面。提出了一种代理IP信息自动抽取算法,该方 法能够有效抽取代理IP信息,并解决网站的反爬取问题。
2.研究了针对网络百科数据实体信息抽取技术,提出了利用RDFS语义信息对抽 取数据进行语义标注及RDF数据规范化的方法。研究了RDF数据的图数据库存储方 法,开发了基于NE04J的RDF数据图存储系统,与传统的关系型数据库存储方式进 行了比较,结果表明本文实现的存储系统能够满足大规模RDF数据的存储与查询需求。 3.深入研究了基于百度百科与互动百科异构数据源构建知识库过程中遇到的实体 对齐问题,提出了一种基于实体属性信息及上下文主题特征相结合进行实体对齐的方 法,与传统的实体对齐方法进行了比较,结果表明本论文提出的方法优于现有实体对
齐方法。
4.将大规模网络百科数据采集技术、实体信息RDF转化、存储与SPARQL查询 技术以及异构数据源实体对齐方法相结合,设计并实现了一个中文网络百科RDF知识 库自动构建系统,该系统能够通过配置采集任务,下载网络百科数据,进行实体数据 抽取与RDF转化与存储,从而为外部应用提供实体查询与SPARQL查询的功能。
万方数据
西南交通大学硕士研究生学位论文
西南交通大学硕士研究生学位论文 第1I页 关键词:知识库;资源描述框架;网络采集;信息抽取;图数据库;主题特征;
实体对齐
万方数据
西南交通大学硕士研究生学位论文
西南交通大学硕士研究生学位论文 第1
您可能关注的文档
- 低压配电网环网系统设计实现及可靠性分析电气工程电力系统及其自动化专业论文.docx
- 大跨径钢管砼拱变形对其承载力影响研究桥梁与隧道工程专业论文.docx
- 当代语境下的地域建筑创作比较研究建筑学专业论文.docx
- 纯真之眼——关于筑之美系列作品的创作报告美术专业论文.docx
- 作业感知的hadoop集群网络调度方法研究计算机应用技术专业论文.docx
- dna修复蛋白ku80在人食管癌发生发展中的作用研究放射医学专业论文.docx
- 带齿根裂纹损伤的风电增速器振动特性研究机械设计及理论专业论文.docx
- 软土地基高速公路拓宽路基变形特性及塑料排水板与粉喷桩处治对比道路与铁道工程专业论文.docx
- 公共政策背后的媒体中美媒体全球气候变化报道的比较研究——以中美四份主流报纸为例行政管理专业论文.docx
- 社会网络中社区发现算法研究计算机科学与技术专业论文.docx
- 丝素透明质酸共混材料的制备及理化性能研究纺织工程专业论文.docx
- 上转换纳米颗粒的合成修饰及其在免疫试纸条上的应用化学工程专业论文.docx
- gan基场效应晶体管的器件隔离技术研究微电子学与固体电子学专业论文.docx
- 北京上海城市社区妇女营养与体力活动适宜干预模式研究营养与食品卫生学专业论文.docx
- 供热环网水力计算系统的设计与实现计算机技术专业论文.docx
- hnf1a和foxa2过表达诱导大鼠骨髓间充质干细胞定向分化为肝样细胞的研究生物学细胞生物学专业论文.docx
- 公路隧道结构设计方法及开挖方案的优化隧道及地下建筑工程专业论文.docx
- tc4材料切削加工技术研究机械工程专业论文.docx
- 桑椹花色苷提取物抗氧化与抗肿瘤生物学活性研究蚕学专业论文.docx
- 错题应用于初中物理教学的策略研究学科教学物理专业论文.docx
最近下载
- 体例格式8:工学一体化课程《windows服务器基础配置与局域网组建》任务3学习任务考核方案.docx VIP
- 石方破碎开挖施工组织设计.pdf VIP
- TCCPA-陆上风力发电机组钢混塔架施工与质量验收规范.pdf VIP
- 2025年浙江省江山市中考数学试题及参考答案详解【新】.docx VIP
- 支持性护理对结直肠癌术后结肠造口患者生活质量改善情况分析.pdf VIP
- Goodrive300-01A系列空压机专用变频器说明书.pdf
- 跨境电商平台创业计划书.docx VIP
- 智能制造系统建模与仿真 课件 第1章 智能制造技术的产生及发展.pptx
- 2025年辅警招聘公安基础知识100题及答案.pdf VIP
- 砂浆及砌块原始记录.docx VIP
文档评论(0)