基于关联规则的Wikidata人物名称数据分析.PDFVIP

下载本文档

61
0
约2.41万字
约 7页
2018-02-09 发布于天津
举报
版权申诉

基于关联规则的Wikidata人物名称数据分析.PDF

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于关联规则的Wikidata人物名称数据分析

第６１卷第１２期　２０１７年６月基于关联规则的Ｗｉｋｉｄａｔａ人物名称数据分析 　　　———以诺贝尔文学奖得主为主题 ■ 贾君枝　冯婕山西大学经济与管理学院　太原０３０００６摘要：［目的／意义］挖掘不同名称数据之间的关联关系，将关于某一实体或主题的领域知识表现出来，这对实现不同层次、不同粒度的知识体系的解构和重构、提供满足多种需求的知识服务工作具有重要的研究意义。［方法／过程］提出一种基于人物实体数据运行关联规则挖掘实验的研究框架，通过对人物实体条目的抽取、预处理及属性识别与分类等处理方法，利用Ｒ语言得到人物实体集的关联规则，实现多种名称数据的关联，最后从Ｗｉｋｉｄａｔａ知识库提取１１３位诺贝尔文学奖得主的实体条目进行实证分析。［结果／结论］分析右部为地点名称、机构名称、时间名称和主题名称等４种不同类型规则的关联特征，实现不同名称数据类型的关系挖掘问题。本研究可为知识的揭示、聚合和关联提供新的视角，探索了数据挖掘技术在名称数据中的应用。关键词：名称数据　关联规则　Ａｐｒｉｏｒｉ算法　知识揭示　Ｗｉｋｉｄａｔａ分类号：Ｇ２５０　　ＤＯＩ：１０．１３２６６／ｊ．ｉｓｓｎ．０２５２－３１１６．２０１７．１２．０１６１　引言面是一种采用人物名称为个人实体标识符、其他名称为个人实体特征的呈现方式；在单个人物信息页面中，　　名称数据主要在图书馆编目领域中用于描述名称因为不同类型的名称数据都以属性的方式通过人物名实体的属性和关系，范围包括人名、团体名、题名、主题称聚集在一起，它们之间可能还存在着关于某一实体［１］名等。随着大数据时代的来临和万维网环境下规范或某一主题的知识，这些知识表现为数据之间未知的控制呈现出的新局面，名称数据的类型扩展到了地名、关系，然而这种关系并不能直接从网页中获取，因此，事件名及其他概念，应用关联数据技术发布的资源更在关联数据集中挖掘并分析不同实体的名称数据之间丰富了其本身在编辑和引用方面的功能；同时，名称数的关联关系显得尤为重要。如果能收集一个群体中与据所提供的服务不再局限于书目世界，而是更多地迁所有成员相关的名称数据，揭示数据之间的隐性关系，移到互联网中，为用户提供简单清晰的扁平化知识，为从而得到关于某一群体的主题知识，不仅能为构建领知识体系的解构和重构提供数据支持［２］。域本体工作提供底层逻辑描述，同时基于探索的结果　　人物名称是名称数据中最具研究价值的一部分，能为验证知识库信息的正确与否提供参考。原因在于人既拥有生卒年、籍贯等自然属性，也拥有学　　目前，国外的一些学者表现出对利用名称数据挖［３］［４］科、职业等社会属性，人物本身所富含的信息还必须掘实体关系研究的兴趣。Ｌ．Ｇａｌáｒｒａｇａ等利用基于通过机构名称、地点名称、事件名称等多种实体数据进规则挖掘的归纳逻辑程序设计在ＤＢｐｅｄｉａ的人物名行细致的描述。目前，随着开放获取运动的发展，称、地点名称、机构名称等数据间进行语义关系的挖Ｗｉｋｉｐｅｄｉａ、ＤＢｐｅｄｉａ等大规模知识库纷纷将这些实体资［５］掘。Ａ．Ｓｐｉｔｚ等根据人物名称、地点名称、机构名称源以关联数据的形式发布在Ｗｅｂ上，它们通过ＲＤＦ化和时间数据构建出适合跨文档事实信息抽取的ＬＯＡＤ的表达模式实现多数据集的关联，这对数据的再利用模型，并提供了对浏览和总结事件信息的结构化框架。具有重要的意义。在这些关联数据集里，人物信息页然而，遗憾的是，国内学者缺乏对名称数据进行关联规 本文系国家社