- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于信息关联拓扑的互联网社交关系挖掘.doc
基于信息关联拓扑的互联网社交关系挖掘
摘要:针对目前基于监督学习的关系抽取方法需要标注大量训练数据和预先定义关系类型,提出了一种基于词语共现信息构建关联网络并在关联网络上进行图聚类分析的人物关系提取方法。首先,从新闻标题数据获得关联度较高的500个人物对用于关系抽取研究;然后,抓取关联人物对所在新闻数据,对其进行预处理,并利用词频―逆向文档频率(TFIDF)得到人物对共现句子中的关键词;其次,基于词语共现信息得到词语之间的关联,进而建立关键词关联网络;最后,利用对关联网络进行图聚类分析以获得人物关系。在关系抽取的实验中,与传统基于词语共现和模式匹配的中文实体关系提取方法相比,所提方法在准确率、召回率和平衡F分数(Fscore)上分别提升了5.5,3.7和4.4个百分点。实验结果表明,所提算法能够在没有标注训练数据的条件下,有效地从新闻数据中抽取丰富且高质量的人物关系数据。
关键词:
社会关系抽取;共现统计;词语关联度;关联网络;图聚类
中图分类号: TP391.1 文献标志码:A
0引言
目前,互联网规模正在以指数级的速度膨胀,互联网上的海量信息具有重要的价值。如何从互联网上海量的信息中提取有价值的数据已经成为了当前研究的热点问题。人物社会关系是人与人之间因为某种社会存在而产生的关联。人物关系提取则是挖掘这种重要关系的技术,它的主要任务是从多元结构的互联网数据中提取出人物关系三元组数据,例如,给定一个句子“姚明的妻子是叶莉”作为输入,关系抽取算法应该从中抽取出“〈姚明,妻子,叶莉〉”。这些事实三元组可以被用于构建大规模、高质量的知识库;同时可以用于构建海量知识图谱和问答系统。
互联网中存在大量的中文数据,但是关系抽取的研究主要集中在英语资源的处理上,中文语料库上的研究较少。与英文相比,基于无结构中文数据的人物社会关系提取研究存在如下难点:中文需要分词,存在复杂的句式结构和隐含的语义,基于单个句子进行人物关系判定往往不够准确。目前大多数人物关系抽取研究将关系提取问题转化为分类问题,需要训练数据和复杂的特征提取技术以及事先定义关系类型体系,训练数据往往需要大量的人工标注工作,特征工程的设计需要大量的尝试,构造较为复杂。事先定义关系类型体系后,无法挖掘到新的关系类型。
针对这些问题,本文提出一种基于关键词关联网络的无监督人物关系提取方法。与上述方法有3点不同:
1)不依赖特定的训练集,面向海量的互联网新闻数据,解决了有监督问题的领域适应性不强的问题;
2)以实体对共现的句子集合为研究对象,减小了依赖单个句子信息抽取关系带来的误差;
3)不需要事先确定的关系类型体系,能够解决人工定义关系类型不全面的问题。
首先利用关联分析技术得到候选人物对,然后抓取人物对共现新闻正文并提取正文数据中的关键词,最后构建关键词关联网络并进行图聚类得到人物关系;在实验部分,本文进行了参数选择实验并与传统的基于词共现和模式匹配的中文实体关系提取方法进行了对比,验证了本文提出的关系挖掘方法的可行性和有效性。
1相关工作
二元人物关系提取主要有基于知识工程的方法和基于机器学习的关系抽取方法[1]。基于知识工程的方法需要大量的人力、物力去构造知识库,并且系统可移植性能不佳。基于机器学习的方法已经成为目前关系抽取领域的研究热点。文献[2]使用两种基于特征向量的机器学习算法,Winnow和支持向量机(Support Vector Machine, SVM)在自动内容抽取测评会议(Automatic Content Extraction, ACE)的训练数据上进行实体关系抽取,两种算法的加权平均Fscore分别是73.08%和73.27%。文献[3]针对中文实体关系提取中的句法特征的选取进行了对比研究,并提出了新的句法特征。文献[4]提出基于动态卷积神经网络识别句子中是否含有谓词表示的关系。文献[5]提出了基于树核的人物关系提取方法,应用剪枝规则,语义信息的嵌入以及重采样技术将Fscore提高3.5%。文献[6]提出了面向大规模网络文本的无指导中文的实体关系抽取方法。
在关键词抽取研究方面,文献[7]综合考虑了关键词在文章中的位置,词性以及逆向文档频率(Inverse Document Frequency, IDF)等因素进行关键词提取。文献[8]针对具有社会网络特性的碎片文档改进现有的关键词提取算法,从微博事件集合中提取代表该事件主要内容的关键词集合。在关键词间关联度计算方面,基于语料库的统计方法通过计算词汇的共现来衡量词汇间的关联。文献[9]提出词语关联关系能够有效地反映词语间的关联度;文献[10]引入词语关联分布关系,提出基于互信息的词语关联衡量方法,提高了目标词语相
文档评论(0)