面向百度百科化学知识图谱构建方法研究.docVIP

下载本文档

10
0
约4.5千字
约 10页
2018-09-22 发布于福建
举报
版权申诉

面向百度百科化学知识图谱构建方法研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

面向百度百科化学知识图谱构建方法研究

面向百度百科化学知识图谱构建方法研究　　摘要：针对百度百科这一数据源，构建了化学知识图谱。首先，利用网络爬虫技术对数据进行采集与清洗；然后，采用中文分词、实体识别、实体关系识别等技术对知识图谱构建方法进行实证性研究，可视化实验所得实体及实体关系，并对实验结果进行了相关评价测试。最后，简要阐述了知识图谱的应用领域与发展优势。研究结果表明，实体关系识别的预测准确率较高。　　关键词：百度百科；知识图谱；网络爬虫；实体识别　　DOIDOI：10.11907/rjdk.172205 　　中图分类号：TP319 　　文献标识码：A 文章编号文章编号：1672-7800（2017）008-0168-03 　　0 引言　　知识图谱（Mapping Knowledge Domains）是显示科学知识发展进程与结构关系的谱系，具有“图”、“谱”的双重性质和特征：既是可视化的知识图形，又是序列化的知识谱系[1]。知识图谱可以绘制、挖掘、分析和显示科学技术知识以及它们之间的相互关系，是在大数据时代背景下产生的一种新型的海量知识管理与服务模式[2]。其研究目标是借助现代技术与理论使知识可视化，让人们更加方便、准确地获取知识。知识图谱作为知识的载体，能用图形化的方式将人们不易理解的信息形象地表示出来[3]，通过内容分析、引文分析、自然语言处理等方法和可视化的方式显示知识结构及其相互关系，既符合人类的认知习惯，又充分利用了现代信息技术；使用户既能快速获取知识及其之间的逻辑关系，又能从海量文献中把握关键的知识点[4]，还能从丰富的网络知识库中提取更多有效的知识进行关系补充，从而更好地把握学科知识结构。　　随着互联网中用户生成内容和?苑帕唇邮?据等大量RDF数据被发布，互联网逐步从仅包含网页与网页之间超链接的文档万维网转变为包含大量描述各种实体和实体之间丰富关系的数据万维网。在此背景下，Google公司于2012年推出了Google Knowledge Graph[5]，其初衷是用于改善搜索结果。紧随其后，国内外的其它互联网搜索引擎公司也纷纷构建了自己的知识图谱，例如微软的Probase[6]、搜狗的“知立方”、百度的“知心”、清华大学构建的XLore[7]、上海交通大学构建的Zhishi.me[8]和复旦大学GDM实验室的“知识工场”等。　　1 数据源分析　　研究通过网络爬虫对百度百科中与“化学”主题相关的词条信息进行抓取，为知识抽取模块产生原始数据基础。在进行爬虫抓取和知识抽取时应注意：百度百科中的基本单元为文章，一篇文章（消歧页面除外）对应一个实体，文章的标题（title，即词条名）通常为对应实体的名称；信息模块以表格的形式存在，用于表述文章对应实体的属性；百度百科中存在重定向机制，用于当用户以不同的检索条件检索到同一篇文章时的定位；当检索条件蕴含多种意义时进行所有意义的列举。　　数据采集方式是运用Java语言，通过网络爬虫的方式进行的。其爬虫抓取策略为：多线程、深度优先遍历、广度优先遍历、反向连接数等策略，爬虫处理流程如图1所示。　　利用该爬虫程序构建了以“化学”这一关键词为主题的百度百科数据集，并采用人工剔除的方式辅助筛选出了5 631个词条信息（包括词条名、词条内容与URL），其爬虫程序入口如图2所示。　　2 知识图谱构建　　在知识图谱构建过程中，最重要的3个环节就是抽取知识实体、识别知识实体间关系与绘制知识图谱。其中尤以知识实体抽取和知识实体间关系的识别最为关键。将知识单元抽取、知识间关系的识别映射为实体识别和实体关系识别后，就可以得到知识图谱构建流程，如图3所示。　　2.1 分词　　实验研究选择R语言环境下的Rwordseg包进行分词。其中Rwordseg包是基于中科院的ICTCLAS中文分词分析算法编写而成的，可以实现中文分词、关键词提取、多级词性标注等功能，还可以导入自定义词典进行辅助分词。分词结果示例如图4所示。　　2.2 知识实体识别　　在知识实体识别之前，需要对数据进行预处理（包括语料的清洗、每个词的上下文窗口词提取、去除没有实际意义的词等），并进行特征选择（包括词特征、词性特征、词典特征、上下文窗口特征、每个词对应的TF-IDF值等），构建相应的特征向量。　　特征选择过程中采用Python实现TF-IDF算法，其核心代码如下：　　from sklearn.feature_extraction.text import TfidfTransformer 　　from sklearn.feature_extraction.text import CountVectorizer 　　?⒌玫降拇视镒?换为词频矩阵：　　freWord = CountVe