一种基于Web的大规模人物社会关系提取方法-PKU-北京大学.PDFVIP

下载本文档

4
0
约1.44万字
约 8页
2018-05-01 发布于天津
举报

一种基于Web的大规模人物社会关系提取方法-PKU-北京大学.PDF

一种基于Web的大规模人物社会关系提取方法-PKU-北京大学

一种基于 Web 的大规模人物社会关系提取方法姚从磊，邸楠（北京大学网络与分布式系统实验室，北京 100871）摘要：Web 上的人物社会关系是一类重要的Web 信息，如何高效准确地从Web 上大规模提取人物社会关系信息，是本文研究的重点。本文提出了一种轻量级的大规模人物社会关系提取方法，并引入模拟退火方法，迭代发掘网页中蕴涵的表述人物社会关系的最小描述模式集合，利用 Web 信息冗余性，高效、准确地从 Web 上提取人物关系信息。为验证该方法的有效性，定义了六种人物社会关系，基于一大规模 Web 人名列表，对这六种关系进行提取。实验结果表明该方法的平均准确率为 84.79%，平均召回率为 81.69%。关键词: 人物社会关系; 描述模式; 关系提取; 模拟退火; Web 中图分类号：TP391 1 引言 [1] Web 已经成为包含人类社会各种知识的信息库，其规模正在以指数级速度膨胀。其中，人物社会关系信息是一类重要的信息。然而，现有的搜索引擎仅能返回与用户关心人物相关的网页，而与该人物有密切联系的关系人物的信息，用户只能花费大量的时间，阅读分析大量网页才能获得。在基于 Web 的社会网络分析研究中，人物关系的定义是一个难点，没有很好的方法自动获取人物之间真实存在的社会关系（亲属、朋友等）。当前工作仅以人物在网页中的相对位置作为人物关系定义的标准，其结果具有一定局限性。若以 Web 中人物社会关系来定义社会网络，进行相关分析，相信会得到更好效果。本文以从Web 信息中自动提取人物社会关系为目标，提出一种基于Web 的大规模人物社会关系提取方法。对每类人物社会关系，首先以描述该类关系的几个关键词出发，获得一具有此类关系的人物对集合；进而利用该集合进行迭代，结合模拟退火方法，从 Web 中挖掘出可充分描述此类关系的最小模式集合；在此基础上，利用该集合，对任一 Web 上出现的人物，高效、准确地提取出与之相关的关系人物，实现人物社会关系提取。 2 相关研究人物社会关系提取属于实体关系提取的范畴，实体关系提取研究可分为两类，一类基于标注训练数据集，利用训练得到的模型进行实体关系提取[2,3,4] ；另一类利用自举的方法，通过迭代发现描述实体关系的模式集合，利用其进行实体关系提取[5,6,7] 。前一类方法局限于特定的训练数据集，扩展性不佳，无法应用到 Web 上的实体关系提取中；后者可充分利用 Web 信息海量的优势，从中发掘特定的模式集合，用基金项目：国家自然科学基金项目作者简介：姚从磊，男，1981年生，博士研究生，主要研究方向为Web 信息提取，Email: ycl@. 邸楠，男，1981 年生，博士研究生，主要研究方向为 Web 社会网络分析，Email: dinan@ 1 于关系提取，但如何保证获得的模式集合以较高准确率和召回率进行关系提取，并保证较高效率，是需要深入研究的问题。 Referral Web[8,9] 是第一个在Web 上进行人物发现的系统，其人物间关系由人名在网页中共现标识，关系的类型不够自然且过于粗糙。PHOLYNET[10]定义了四种科研人员间的简单关系，基于人工标注的训练集，利用 C4.5 训练得到分类器，根据任意两个人物相关网页的特征，对其关系进行分类；文中定义的关系面向一个较小的领域，利用人工训练的方法可以得到较好的结果，但若将其扩展到一个大的领域，比如朋友关系的提取，则不能适用。本文提出的方法，与上述研究有三点不同：（1）不局限于一个狭窄领域的人物关系，而以人物社会关系为目标，并利用 Web 信息的冗余性，提取人物关系；（2 ）不依赖特定的训练集，面向海量的 Web 信息，首先挖掘与特定类别人物关系相关的描述模式集合，在保证高准确率和召回率的基础上，最小化该集合，

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

一种基于Web的大规模人物社会关系提取方法-PKU-北京大学.PDFVIP