基于百科数据的实体分类算法的研究与实现.docVIP

下载本文档

7
0
约1.22万字
约 21页
2021-01-06 发布于北京
举报
版权申诉

基于百科数据的实体分类算法的研究与实现.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于百科数据的实体分类算法的研究与实现摘要：随着互联网技术的发展，在互联网上流转的数据信息量与日俱增。那么不可避免的，从这些数据中提取可用部分并且构建有效的知识，形成知识图谱，用于准确表达各个实体的语义和相互关系成为了十分重要的问题。分类体系在构建知识图谱时是无法绕过的基础工作，为保证知识图谱的连贯性，可用性以及准确性，实体的分类任务将成为知识图谱构建的首要工作。然而，现在的分类工作大部分都只能为实体进行粗粒度的标注，诸如：{自然;科学;人物;历史;生活;社会;艺术;经济;体育;地理}这种程度的分类.虽然能够解决部分在构建知识图谱时的问题，但是由于粒度过大，不够精准，也有其缺陷。在本文中，我们主要提出并实验了使用卷积神经网络对实体进行细粒度划分的方法。实体的来源为百科词条，我们首先通过网络爬虫获取到百科中词条的相关信息，对词条数据进行预处理后得到结构化的信息并将其存入到数据库中。考虑到拥有相同类型的实体的info-box可能会拥有类似的attribute-value对，我们将构成一个包含attribute-value信息异质网络并从中抽取出路径作为神经网络的输入，最终训练出一个path-CNN的二分类模型用于预测对于一个实体判断其是否属于给定的分类。关键词：细粒度分类，实体，百科数据，卷积神经网络，异质网络前言随着互联网技术的发展，人工智能已经成为了时下最热门的话题。计算机在实现智能化的道路上正在经历从感知智能到认知智能的过渡发展期。认知智能中最难解决的问题即为自然语言的语义理解问题。为了让计算机可以正确理解人类的语言，我们需要预先让计算机掌握足够充分的人类社会及各个领域的知识。正所谓知识是智能的前提，由此知识图谱的概念应运而生。知识图谱的构建是一项非常复杂的工程，其中建立知识的分类体系是知识图谱构建中最为基础的工作。已经有无数的学者在这个领域上做出了贡献，然而目前对于中文的实体分类工作目前仍然处于较为粗粒度的阶段，我们缺乏一个可行的准确的方案对于细粒度的分类要求进行处理。以百科词条为例，百科数据都有info-box(以键值对的形式表现出词条实体所拥有的主要属性，比如中国这个词条就有着诸如主要语言-汉语，文字-汉字，首都-北京等attribute-value对)，由于具有相同类别的实体大多数的attribute应当是重复的，故而现有的分类算法大都选择attribute作为特征进行训练。在进行粗粒度的划分时，这种特征十分有效，但是当进行细粒度划分时，由于特征太少会导致分类结果很模糊，比如一本悬疑小说和一本武侠小说，会具有九成一样的attribute，在使用原有的方法进行分类就容易导致一本只属于武侠小说的书被同时分类到悬疑小说和武侠小说上。所以特征需要重新抽取。在本文中，我们研究并实现了将卷积神经网络应用到实体分类中，以实现细粒度划分的目的。主要工作如下： (1)从互动百科以及百度百科上获得实体数据(主要爬取部分包括：实体名，info-box,开放分类，简介)。 (2)获取训练集：部分的实体的title具有人工标注的标签，抽取出人工标注的标签后与开放分类中已经存在的分类作比对，如果开放分类中存在此标签，那么将这个标签作为当前实体的分类并将此实体加入正训练集。 (3)对数据进行预处理并构建卷积神经网络的第一层后，设定卷积核大小等参数进行卷积操作。第一章绪论本章节首先介绍了细粒度的实体分类算法的研究背景和意义，随后简单介绍了算法实现过程中的主要工作，在最后概括了下本篇论文的架构。 1.1研究背景及意义随着计算机技术的发展，近年来，人工智能已经成为了炙手可热的话题。计算机需要一个算法去帮助它理解事物和判断人类意图。然而计算机若是想要拥有智能，一个好的知识图谱时必不可少的。百度的技术副总裁王海峰在演讲时说过：知识与人工智能的价值就在于，让机器具备认知能力。每个人都有自己的知识面，这些本质上都是知识图谱。而对于人工智能来说，知识图谱是机器获得认知的前提。现如今，诸如Dbpedia[9] 、Freebase[10]、Yago[11] 和Probase[12] 等知识图谱已经广泛应用于许多实际应用中，如知识推理、实体链接[14]和问答等。分类体系是建立知识图谱的基石，在各大知识图谱的应用场景中，比如：从百度搜索结果时，在右侧的联想推荐同类搜索;旅游搜索地图时，为你自动推荐的附近景点和商家这些都是建立在对知识进行分类的基础上。然而现有的搜索算法还是十分粗糙。在保证准确度的前提下最多只能进行200个分类。这显然并不够，以百度搜索的实际场景为例：若是一位用户在搜索《福尔模式探案集》这本悬疑小说的时