一种基于Web的大规模人物社会关系提取方法-PKU-北京大学.PDFVIP

  • 4
  • 0
  • 约1.44万字
  • 约 8页
  • 2018-05-01 发布于天津
  • 举报

一种基于Web的大规模人物社会关系提取方法-PKU-北京大学.PDF

一种基于Web的大规模人物社会关系提取方法-PKU-北京大学

一种基于 Web 的大规模人物社会关系提取方法 姚从磊,邸楠 (北京大学网络与分布式系统实验室,北京 100871) 摘 要:Web 上的人物社会关系是一类重要的Web 信息,如何高效准确地从Web 上大规模提取人物社会关系 信息,是本文研究的重点。本文提出了一种轻量级的大规模人物社会关系提取方法,并引入模拟退火方法, 迭代发掘网页中蕴涵的表述人物社会关系的最小描述模式集合,利用 Web 信息冗余性,高效、准确地从 Web 上提取人物关系信息。为验证该方法的有效性,定义了六种人物社会关系,基于一大规模 Web 人名列 表,对这六种关系进行提取。实验结果表明该方法的平均准确率为 84.79%,平均召回率为 81.69%。 关键词: 人物社会关系; 描述模式; 关系提取; 模拟退火; Web 中图分类号:TP391 1 引言 [1] Web 已经成为包含人类社会各种知识的信息库,其规模正在以指数级速度膨胀 。其中,人物社会 关系信息是一类重要的信息。然而,现有的搜索引擎仅能返回与用户关心人物相关的网页,而与该人物 有密切联系的关系人物的信息,用户只能花费大量的时间,阅读分析大量网页才能获得。 在基于 Web 的社会网络分析研究中,人物关系的定义是一个难点,没有很好的方法自动获取人物之 间真实存在的社会关系(亲属、朋友等)。当前工作仅以人物在网页中的相对位置作为人物关系定义的标 准,其结果具有一定局限性。若以 Web 中人物社会关系来定义社会网络,进行相关分析,相信会得到更 好效果。 本文以从Web 信息中自动提取人物社会关系为目标,提出一种基于Web 的大规模人物社会关系提取 方法。对每类人物社会关系,首先以描述该类关系的几个关键词出发,获得一具有此类关系的人物对集 合;进而利用该集合进行迭代,结合模拟退火方法,从 Web 中挖掘出可充分描述此类关系的最小模式集 合;在此基础上,利用该集合,对任一 Web 上出现的人物,高效、准确地提取出与之相关的关系人物, 实现人物社会关系提取。 2 相关研究 人物社会关系提取属于实体关系提取的范畴,实体关系提取研究可分为两类,一类基于标注训练数 据集,利用训练得到的模型进行实体关系提取[2,3,4] ;另一类利用自举的方法,通过迭代发现描述实体关 系的模式集合,利用其进行实体关系提取[5,6,7] 。前一类方法局限于特定的训练数据集,扩展性不佳,无法 应用到 Web 上的实体关系提取中;后者可充分利用 Web 信息海量的优势,从中发掘特定的模式集合,用 基金项目:国家自然科学基金项目 作者简介:姚从磊,男,1981年生,博士研究生,主要研究方向为Web 信息提取,Email: ycl@. 邸楠,男,1981 年生,博士研究生,主要研究方向为 Web 社会网络分析,Email: dinan@ 1 于关系提取,但如何保证获得的模式集合以较高准确率和召回率进行关系提取,并保证较高效率,是需 要深入研究的问题。 Referral Web[8,9] 是第一个在Web 上进行人物发现的系统,其人物间关系由人名在网页中共现标识, 关系的类型不够自然且过于粗糙。PHOLYNET[10]定义了四种科研人员间的简单关系,基于人工标注的训 练集,利用 C4.5 训练得到分类器,根据任意两个人物相关网页的特征,对其关系进行分类;文中定义的 关系面向一个较小的领域,利用人工训练的方法可以得到较好的结果,但若将其扩展到一个大的领域, 比如朋友关系的提取,则不能适用。 本文提出的方法,与上述研究有三点不同:(1)不局限于一个狭窄领域的人物关系,而以人物社会 关系为目标,并利用 Web 信息的冗余性,提取人物关系;(2 )不依赖特定的训练集,面向海量的 Web 信息,首先挖掘与特定类别人物关系相关的描述模式集合,在保证高准确率和召回率的基础上,最小化 该集合,

文档评论(0)

1亿VIP精品文档

相关文档