社交媒体知识图谱构建和知识推理的关键技术研究.docxVIP

社交媒体知识图谱构建和知识推理的关键技术研究.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
? ? 社交媒体知识图谱构建和知识推理的关键技术研究 ? ? 陈学楷 谭策 刘湉 吴正己 摘 ?要:随着社交媒体的发展,网络平台的言论逐渐趋于个体化,因此准确识别一个人对某话题的言论是否有夸大或偏激的成分便显得尤为重要。传统的社交媒体情感分析依靠词袋模型来表现言论积极或消极的态度,这样的方法往往会因每个人的用词习惯的不同而变得有失偏颇。对某人话语是否偏激的推理主要依靠对每个个体长期以来的用词习惯来进行判断。因此,本文提出了基于知识图谱和PageRank联合的偏颇性预测模型,为每个词定义了偏颇性分数,对判断言论是否存在一定的水分提供了重要依据。实验结果表明,文本的偏颇性得分在一定程度上确实可以判断用户的语言表达偏颇情况。 Key:知识图谱PageRank偏颇性分析情感推理 1.引言: 相对于电视广播、纸质报刊这类传统媒体来说,互联网无论从影响力还是舆论动员力方面都比传统媒体更加有力,然而社交媒体上的言论往往因为其庞大的信息量以及用户言论的片面性使得信息的水分过高,因此需要良好的识别系统来加以判定和筛选。而知识图谱在自然语言处理方面的角色更像是一个数据库,提供着记忆信息、提供信息的功能。构建完善的知识图谱有利于发现词与词之间人们有时意识不到的数值关系,从而在自然语言处理中发挥重要作用。本次实验就是围绕知识图谱的构建方法开始的。 2.相关研究 从技术层面来看,知识图谱构建技术在本质上要解决的问题是数据之间潜在关系的预测和知识之间关系推理。学术组织很早就关注了知识图谱相关技术的研究。1989年,第一届国际知识表示和推理国际会议(The First International Conference on Principles of Knowledge Representation and Reasoning)的召开,推动了知识表示和推理理论和技术的研究。2012年,谷歌公司发布了基于语义搜索的项目Knowledge Graph,使得万维网由基于数据链接的网络逐步进化为链接知识的网络。 知识图谱推理是根据已知的实体之间关系推测实体之间的潜在关系,从而给知识图谱增加新的事实。PageRank是一种基于图模型的结点重要性排序方法,通常在搜索引擎中对网页链接的重要性权衡中发挥着很大的作用。本文将使用PageRank算法的变形对生成的知识图谱进行知识推理,并尝试用推理后构建出的图谱来预测文本的情感特征,检验推理图谱的可靠性。 情感分析的方法主要可分为基于情感词典的情感分析方法和基于机器学习的情感分析方法。基于情感词典的情感分析是从待测文本中提取特征词后,在情感词典中查找该特征词的情感值,根据累加的情感值进行情感分类的方法[2]。在情感词典的选择上,一般有两种方式:一种是引用已有的情感词典,如HowNet词典、SentiWordNet、Inquirers等;另一种是通过研究数据自行构建词典,如R.Feldman等学者在已有的情感词典基础上,利用部分人工标注和Bootstrapping的方式提取情感词[1]。由于美国最早的社交媒体情感分析就是基于Twitter的社交媒体数据开展的,因此本文将采用针对Twitter平台已有的且准确率较高的情感分析词典SentiWordNet进行知识推理和话语的偏颇性判别。 3.正文 3.1实验准备 3.1.1实验数据集 本实验采用情感词典SentiWordNet_3.0.0来进行文本中词语积极性和消极性的匹配和提取,应用于Twitter用户名为METGALA、archie、best dressed三人的推文中来生成用户主体依赖的知识图谱。 下载链接: 推文:https:///download/zzhaier/6640081 情感词典:https:///download/zzhaier/6640081 3.1.2评价标准 由于句子的情感表述无法通过准确率召回率等指标进行定量衡量,因此我们对最终的结果进行了人工评价,具体例子可以在3.2.3的部分看到。 3.2实验过程 本篇文章大体步骤可分为三个部分,首先依据情感词典和Twitter中用戶的话语来构建词与词之间的情感关系,生成一个两种极性词语全连接的庞大的双向图网络。其次改进PageRank算法利用词之间的双向关系计算每个词正向和逆向的偏颇值,给每个结点重新赋值。最后用新的推理图谱,以词语偏颇性代数和的结果判断话语是否偏颇或过激。 3.2.1知识图谱构建 现代知识图谱通常使用W3C Resource Description Framework(RDF)[Cyganiak et al.,2014]这一用于存储实体及其关系的基于图的数据模型,标准RDF以三元组(subject,predicate,object)(SPO)来表示事实。在本篇论文中,我们将predicate

文档评论(0)

布丁文库 + 关注
官方认证
文档贡献者

该用户很懒,什么也没介绍

认证主体 重庆微铭汇信息技术有限公司
IP属地浙江
统一社会信用代码/组织机构代码
91500108305191485W

1亿VIP精品文档

相关文档