基于关联规则的Wikidata人物名称数据分析.PDFVIP

基于关联规则的Wikidata人物名称数据分析.PDF

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于关联规则的Wikidata人物名称数据分析

第61卷 第12期 2017年6月 基于关联规则的Wikidata人物名称数据分析    ———以诺贝尔文学奖得主为主题 ■ 贾君枝 冯婕 山西大学经济与管理学院 太原030006 摘要:[目的/意义]挖掘不同名称数据之间的关联关系,将关于某一实体或主题的领域知识表现出来,这 对实现不同层次、不同粒度的知识体系的解构和重构、提供满足多种需求的知识服务工作具有重要的研究意 义。[方法/过程]提出一种基于人物实体数据运行关联规则挖掘实验的研究框架,通过对人物实体条目的抽 取、预处理及属性识别与分类等处理方法,利用R语言得到人物实体集的关联规则,实现多种名称数据的关联, 最后从Wikidata知识库提取113位诺贝尔文学奖得主的实体条目进行实证分析。[结果/结论]分析右部为地 点名称、机构名称、时间名称和主题名称等4种不同类型规则的关联特征,实现不同名称数据类型的关系挖掘 问题。本研究可为知识的揭示、聚合和关联提供新的视角,探索了数据挖掘技术在名称数据中的应用。 关键词:名称数据 关联规则 Apriori算法 知识揭示 Wikidata 分类号:G250   DOI:10.13266/j.issn.0252-3116.2017.12.016 1 引言 面是一种采用人物名称为个人实体标识符、其他名称 为个人实体特征的呈现方式;在单个人物信息页面中,   名称数据主要在图书馆编目领域中用于描述名称 因为不同类型的名称数据都以属性的方式通过人物名 实体的属性和关系,范围包括人名、团体名、题名、主题 称聚集在一起,它们之间可能还存在着关于某一实体 [1] 名等 。随着大数据时代的来临和万维网环境下规范 或某一主题的知识,这些知识表现为数据之间未知的 控制呈现出的新局面,名称数据的类型扩展到了地名、 关系,然而这种关系并不能直接从网页中获取,因此, 事件名及其他概念,应用关联数据技术发布的资源更 在关联数据集中挖掘并分析不同实体的名称数据之间 丰富了其本身在编辑和引用方面的功能;同时,名称数 的关联关系显得尤为重要。如果能收集一个群体中与 据所提供的服务不再局限于书目世界,而是更多地迁 所有成员相关的名称数据,揭示数据之间的隐性关系, 移到互联网中,为用户提供简单清晰的扁平化知识,为 从而得到关于某一群体的主题知识,不仅能为构建领 知识体系的解构和重构提供数据支持[2]。 域本体工作提供底层逻辑描述,同时基于探索的结果   人物名称是名称数据中最具研究价值的一部分, 能为验证知识库信息的正确与否提供参考。 原因在于人既拥有生卒年、籍贯等自然属性,也拥有学   目前,国外的一些学者表现出对利用名称数据挖 [3] [4] 科、职业等社会属性 ,人物本身所富含的信息还必须 掘实体关系研究的兴趣。L.Galárraga等 利用基于 通过机构名称、地点名称、事件名称等多种实体数据进 规则挖掘的归纳逻辑程序设计在 DBpedia的人物名 行细致的描述。目前,随着开放获取运动的发展, 称、地点名称、机构名称等数据间进行语义关系的挖 Wikipedia、DBpedia等大规模知识库纷纷将这些实体资 [5] 掘。A.Spitz等 根据人物名称、地点名称、机构名称 源以关联数据的形式发布在Web上,它们通过RDF化 和时间数据构建出适合跨文档事实信息抽取的LOAD 的表达模式实现多数据集的关联,这对数据的再利用 模型,并提供了对浏览和总结事件信息的结构化框架。 具有重要的意义。在这些关联数据集里,人物信息页 然而,遗憾的是,国内学者缺乏对名称数据进行关联规 本文系国家社

文档评论(0)

laolao123 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档