- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于自举学习与指代消解的人物家庭网络构建研究 作者:顾静航、胡亚楠、钱龙华、朱巧明 报告人:胡亚楠 苏州大学自然语言处理实验室 主要内容 研究动机 相关工作 研究方法 评价方法 实验结果 展望 研究动机 社会关系网络在当今信息化社会中具有重要的作用,社会关系网络的分析和应用可以提高人们的生活质量和生活效率。家庭是人类社会最基本的组成单位,因而家庭网络是社会网络中的核心部分。传统的社会关系网络分析(Social Network Analysis, SNA)着眼于以人为个体,考察个体在网络中的作用,忽略了家庭作为一个整体对社会网络的影响。本文从构建家庭网络入手,挖掘丰富的人物家庭关系,为构造大规模的社会关系网络打下基础。 相关工作 自举学习 Hearst(1992):基于模式匹配来抽取“is-a”关系 Pantel等(2006):Espresso,解决模式和实例的可信度问题 姚从磊等(2007):采用模拟退火算法发现网页中蕴涵的人物社会关系 社会关系网络 Kautz等(1997):Referral Web,利用人名共现实现社会网络挖掘 Mika等(2005):同Referral Web,包括Web网页和用户电子邮件 相关工作(续) 社会关系网络(续) 唐杰等(2008):ArnetMiner,建立学术人物之间的社会关系网络 Elson等(2010)、Agarwal等(2012):对小说中人物的社会关系网络进行了研究,提出了隐式社会关系的概念 Camp和Bosch等(2011):从人物自传中提取带有情感极性的人物社会关系 Zhu等(2009):StatSnowball,采用自举方法进行人物社会关系的抽取,融合概率模型和马尔科夫逻辑网络等方法,实现“微软人立方” 研究方法 基于自举学习的人物家庭关系抽取: 家庭关系定义: “Parent-Child”和“Husband-Wife”。 为了便于自举过程的进行,“Parent-Child”关系类型又被细分为“Father-Son”、“Father-Daughter”、“Mother-Son”和“Mother-Daughter” 自举学习过程: 模式发现 模式评估 实例发现 实例评估 模式发现: 给定种子“江泽民, 王冶坪” 抽取出文本“……中国国家主席江泽民的夫人王冶坪今天下午……” 抽取模式,得“Husband的夫人Wife” 研究方法(续) 研究方法 (续) 模式评估: 采用PMI衡量模式p与人物对{x, y}之间的关联强度 定义模式p的可信度为rπ(p),它与每个实例i的平均关联程度有关 研究方法 (续) 实例发现: 利用已有模式发现实例 如模式“Husband的夫人Wife” 可以得到句子“……中国国务院总理李鹏的夫人朱琳8日上午来到……” 进行分词、人名识别,可以发现新的夫妻关系实例“李鹏, 朱琳”。 研究方法 (续) 实例评估: 定义实例i的可信度为rl(i),它与每个模式p的平均关联程度有关 PMI方法对于低频事件有偏向性,所以引入打折因子 研究方法(续) 基于指代消解的人物家庭网络融合: 人名精确匹配: 在不同的人物对中按照人名进行字符串精确匹配,将具有相同名称的人名作为连接点,通过连接点将不同的人物对联系起来,形成初始家庭。 重名消岐: 在人名精确匹配的基础上,以文档的全局实体特征作为人名特征,计算同名人物之间的余弦相似度,将相似度低于某一阀值的同名人物从初始家庭中分离出去。 多名聚合: 在家庭内部采用最小编辑距离的方法进行人物的多名聚合,当人名之间的相似度大于某一阀值时,将它们归入同一指代链,并形成最终家庭。 研究方法(续) 在进行人物家庭网络构建时,即需要将拥有相同名称的不同人物归入各自的指代链,又需要将指向同一人物的多个名称归入同一条指代链 研究方法(续) 例子: (a)“……,卡恩的妻子西蒙娜却站出来维护自己的丈夫,说……” (b)“……,巴博的妻子西蒙娜当日早些时候在执政党明确表示,法国并没有在……” (c)“尼日利亚国家元首阿巴查的夫人玛丽亚姆?阿巴查26日在接受本社记者采访……” (d)“尼日利亚国家元首阿巴查和夫人玛利亚姆?阿巴查、外交部长……” (e)“这些人员中主要包括阿巴查的儿子穆罕默德?阿巴查和商人……” 研究方法(续) 以上5个例句分别来源于5篇不同的文档 其中(a)与(b)中的“西蒙娜”为不同的人物,因而(a)与(b)中的夫妻关系不同 (c)中的“玛丽亚姆?阿巴查”与(d)中的“玛利亚姆?阿巴查”则是指同一个人,(c)与(d)中的夫妻关系相同 (a)、(b)中的人物不能构建成一个家庭 (c)、(d)中的夫妻以及(e)中的父子可以构建成一个家庭。 评价方法 关系抽取性能评价 其中,C为抽取结果中正确的
您可能关注的文档
- 气候变化与环境外交(张海滨).ppt
- 家畜繁殖学 Reproduction in Farm Animals 第八章 配子与胚胎生物工程 第一节 胚胎移植技术.ppt
- 第十章 转基因动物技术 第一节 转基因动物 第二节 基因打靶 第三节 转基生物的安全性(刘智敏).ppt
- 测井资料处理与解释之绪论(赵军龙).ppt
- 基于职业能力培养的课程改革与教学实践(广州市交通运输职业学校).ppt
- 结晶学与矿物学:矿物的成因 形成矿物的地质作用.ppt
- 矿山地质学 矿产勘查的几个基本概念(姚玉增).ppt
- 实验三:植物根和茎外形、初生及次生结构的观察 第一部分、根 根的外形特点 第二部分、茎.ppt
- 实验一 微藻的培养基配制 实验二 单细胞藻类的培养 实验三 藻类细胞叶绿素的提取和细胞色素的观察 实验四 微藻的分离方法---微吸管分离法 实验五 微藻的分离方法---平板分离法.ppt
- 第四章 电解质溶液(邬泉周).ppt
- 第五章 凝集反应 第一节 凝集反应的特点 第二节 直接凝集反应 第三节 间接凝集反应 第四节 自身红细胞凝集试验 第五节 抗球蛋白试验.ppt
- 矿山工程地质调查(姚玉增).ppt
- 乳品工艺学 绪论 第一章 乳的成分与性质.ppt
最近下载
- 哮喘合并冠心病高血压病例分析课件.pptx VIP
- 2025年中期投资策略展望十大投资主题系列-中国股市十大投资主题:先进制造篇.pdf
- 《脑卒中防治知识普及》课件.ppt VIP
- 《综合实践项目 健康生活宣传展演》(教案及反思)-2024-2025学年人教版(2024)初中生物八年级上册.docx VIP
- 哮喘合并冠心病、高血压病例分析课件.pptx VIP
- 《选择健康的生活方式》(教案及反思)-2024-2025学年人教版(2024)初中生物八年级上册.docx VIP
- 《危险驾驶罪》课件.ppt VIP
- 《我的幸运一天》-课件.ppt VIP
- 一元一次不等式组含参问题.pdf VIP
- 综合实践项目+健康生活宣传展演+课件-2025-2026学年人教版生物八年级上册.pptx VIP
文档评论(0)