- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于关联规则的Wikidata人物名称数据分析
第61卷 第12期 2017年6月
基于关联规则的Wikidata人物名称数据分析
———以诺贝尔文学奖得主为主题
■ 贾君枝 冯婕
山西大学经济与管理学院 太原030006
摘要:[目的/意义]挖掘不同名称数据之间的关联关系,将关于某一实体或主题的领域知识表现出来,这
对实现不同层次、不同粒度的知识体系的解构和重构、提供满足多种需求的知识服务工作具有重要的研究意
义。[方法/过程]提出一种基于人物实体数据运行关联规则挖掘实验的研究框架,通过对人物实体条目的抽
取、预处理及属性识别与分类等处理方法,利用R语言得到人物实体集的关联规则,实现多种名称数据的关联,
最后从Wikidata知识库提取113位诺贝尔文学奖得主的实体条目进行实证分析。[结果/结论]分析右部为地
点名称、机构名称、时间名称和主题名称等4种不同类型规则的关联特征,实现不同名称数据类型的关系挖掘
问题。本研究可为知识的揭示、聚合和关联提供新的视角,探索了数据挖掘技术在名称数据中的应用。
关键词:名称数据 关联规则 Apriori算法 知识揭示 Wikidata
分类号:G250
DOI:10.13266/j.issn.0252-3116.2017.12.016
1 引言 面是一种采用人物名称为个人实体标识符、其他名称
为个人实体特征的呈现方式;在单个人物信息页面中,
名称数据主要在图书馆编目领域中用于描述名称
因为不同类型的名称数据都以属性的方式通过人物名
实体的属性和关系,范围包括人名、团体名、题名、主题 称聚集在一起,它们之间可能还存在着关于某一实体
[1]
名等 。随着大数据时代的来临和万维网环境下规范 或某一主题的知识,这些知识表现为数据之间未知的
控制呈现出的新局面,名称数据的类型扩展到了地名、 关系,然而这种关系并不能直接从网页中获取,因此,
事件名及其他概念,应用关联数据技术发布的资源更 在关联数据集中挖掘并分析不同实体的名称数据之间
丰富了其本身在编辑和引用方面的功能;同时,名称数 的关联关系显得尤为重要。如果能收集一个群体中与
据所提供的服务不再局限于书目世界,而是更多地迁 所有成员相关的名称数据,揭示数据之间的隐性关系,
移到互联网中,为用户提供简单清晰的扁平化知识,为 从而得到关于某一群体的主题知识,不仅能为构建领
知识体系的解构和重构提供数据支持[2]。 域本体工作提供底层逻辑描述,同时基于探索的结果
人物名称是名称数据中最具研究价值的一部分, 能为验证知识库信息的正确与否提供参考。
原因在于人既拥有生卒年、籍贯等自然属性,也拥有学 目前,国外的一些学者表现出对利用名称数据挖
[3] [4]
科、职业等社会属性 ,人物本身所富含的信息还必须 掘实体关系研究的兴趣。L.Galárraga等 利用基于
通过机构名称、地点名称、事件名称等多种实体数据进 规则挖掘的归纳逻辑程序设计在 DBpedia的人物名
行细致的描述。目前,随着开放获取运动的发展, 称、地点名称、机构名称等数据间进行语义关系的挖
Wikipedia、DBpedia等大规模知识库纷纷将这些实体资 [5]
掘。A.Spitz等 根据人物名称、地点名称、机构名称
源以关联数据的形式发布在Web上,它们通过RDF化 和时间数据构建出适合跨文档事实信息抽取的LOAD
的表达模式实现多数据集的关联,这对数据的再利用 模型,并提供了对浏览和总结事件信息的结构化框架。
具有重要的意义。在这些关联数据集里,人物信息页 然而,遗憾的是,国内学者缺乏对名称数据进行关联规
本文系国家社
您可能关注的文档
- 含氯聚硅烷的合成与表征-维普.PDF
- 呼吸监测-红软基地.PPT
- 呼吸道传递病防治知识讲座.PPT
- 品德与生活课程的结构框架品德与-兵团教育信息网.PPT
- 品评-西南环境史研究网-云南大学.PDF
- 商业银行信息科技风险动态监测指标接口标准101版本.PDF
- 商用焕新PC助力零售商数字化转型.PDF
- 喜讯-北京服装学院.PDF
- 嘉峪关即食食品中食源性致病菌污染状况监测分析-Core.PDF
- 商业领袖在共创过程中应该如何采取主动以便在数字化转型中-Fujitsu.PDF
- 基于内容信任的Web信息可信度验证方法研究-北京理工大学.PDF
- 基于内容的视频检索系统开题报告系统分析系统设计系统-TeamTrac.PPT
- 基于分布式光伏电站和储能系统的家庭能效管理策略-电力需求侧管理.PDF
- 基于分组的宽带CDMA网络呼叫接纳控制方案-西南交通大学.PDF
- 基于功率密度的玉米收获机车架疲劳分析-IngentaConnect.PDF
- 基于千兆网的高清视觉传感器.PDF
- 基于多层次模糊综合评判的GIS质量综合评价.PDF
- 基于大字典的LZW压缩算法的降熵改进-计算机应用与软件.PDF
- 基于层次分析法汽车轮胎花纹的选择-内江师范学院.PDF
- 基于工业CT的压力管道在线测厚仪研制StudyofANewPipeline.PDF
文档评论(0)