Web中实体关系分析与面向实体的社会网络分析研究.doc

Web中实体关系分析与面向实体的社会网络分析研究.doc

  1. 1、本文档共30页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Web中实体关系分析与面向实体的社会网络分析研究 邸楠 北京大学网络实验室 摘要:以实体为核心的Web内容挖掘可以分为三个层次:实体层次—提取、分析单个实体及其属性—、实体关系层次—提取、分析多个实体间的关系的—和基于实体的社会网络分析。本文对后面两个部分的相关研究进行了总结,描述了近年来该领域的研究路线,分析了其中用到的主要方法,并提出了几个该领域亟待解决的问题。 关键字:实体关系、社会网络分析、综述YYY 目录 1. 前言 3 2. Web中的实体关系发现 4 2.1. 关系发现研究概况 4 2.2. 先确定关系类型的方法 7 2.2.1. 有监督的学习方法 7 2.2.2. 半监督的学习方法方法 8 2.3. 后确定关系类型的方法 14 2.4. 实体关系发现的难点 15 2.4.1. 实体关系对的确定 15 2.4.2. 实体关系描述文本的筛选与扩展 15 2.4.3. 实体关系对的验证 16 2.4.4. 实体关系体系的发现 16 3. Web中的社会网络分析 17 3.1. 以网页为研究对象的社会网络分析 17 3.1.1. 基于HITS的技术 18 3.1.2. 基于二分有向图的技术 20 3.1.3. 基于流量的技术 20 3.1.4. 几种技术的总结 21 3.2. 以实体为研究对象的社会网络分析 21 3.2.1. 以实体为核心的社会网络构建 22 3.2.2. 以实体为核心的社会网络分析方法 23 3.3. 基于Web的社会网络分析主要难点问题 25 4. 参考文献 27 前言 随着计算机的广泛应用与互联网的高速发展, 网络信息不断爆炸式地增长。信息的过量增长带来一定负面影响:面对大规模的信息, 用户难以找到自己真正的需求。如何利用一些自动化的方法帮助人们在海量信息源中迅速找到真正需要的信息,现有的搜索引擎已经不能满足用户的要求。 下面就是一个例子:例如对于“丁磊”这个名字来说,叫这个名字的人很多,新闻报道中也会很常见,通过其服务的机构以及职务来分析,会发现网易公司有丁磊,而上海通用汽车公司也有一个丁磊,并且网易公司的丁磊的任职包括:董事会主席、总裁、总经理、CEO、董事等等。除了了解“丁磊”的个人情况外,发现他与 “人物”、“机构”、“事件”等其他命名实体地关系。 “命名实体关系标注”时还可以进行“机构名 + 职务”、“机构+人名”等组合搜索,获取检索机构和特定职务的历任信息等。能够极大的提高情报分析、猎头行业的工作效率,因此具有很高的应用前景和商业价值。基于实体对Web的分析挖掘已成为Web挖掘领域研究开发的焦点,信息抽取(Information Extraction)正是在这种背景下产生与发展起来。 信息抽取系统的主要功能是从文本中抽取出特定的事实信息( Factual Information)[1]。比如,从新闻报道中抽取出恐怖事件的详细情况:时间、地点、作案者、受害者、袭击目标、使用的武器等;从经济新闻中抽取出公司发布新产品的情况:公司名、产品名、发布时间、产品性能等;从病人的医疗记录中抽取出症状、诊断记录、检验结果、处方等等。通常,被抽取出来的信息以结构化的形式描述,可以直接存入数据库中,供用户查询以及进一步分析利用。 近十年来,信息抽取逐步发展成为自然语言处理领域的一个重要分支,涉及到了深层次的语言理解、篇章分析与推理、多语言文本处理、WEB 信息抽取、名实体识别等自然语言研究领域。通过系统化、大规模地定量研究和评测推动了自然语言处理研究的发展,促进了自然语言处理研究与应用的紧密结合。近年来,信息抽取的处理对象也扩展到了语音、图像、视频等其他媒体类型的数据。可以说,信息抽取已成为当前自然语言处理和相关领域的研究热点。信息抽取技术对搜索引擎、网络信息过滤和信息安全、自动问答系统、机器翻译、文本挖掘、企业智能信息系统等许多应用领域具有至关重要的作用[2][3]。 在信息抽取领域中,命名实体(Named Entity)是文本中基本的信息元素,是正确理解文本的基础[3]。狭义地讲,命名实体是指现实世界中的具体的或抽象的实体,如人、组织、公司、地点等,通常用唯一的标志符(专有名称)表示,如人名、组织名、公司名、地名等。广义地讲,命名实体还可以包含时间、数量表达式等。至于命名实体的确切含义,只能根据具体应用来确定。比如,在具体应用中,可能需要把住址、电子信箱地址、电话号码、舰船编号、会议名称等作为命名实体。 关系(Relation)被看作两个实体在一段时间或空间范围内的某种联系[4],在信息抽取研究中关系的发现在事件的侦测与描述中起着关键的作用。所以命名实体之间语义关系的抽取是信息抽取领域的一项重要的基础性研究 现如今,命名实体语义关系抽取技术在很多专业领域中有着更高的要求和更迫切的需求。在教育自动

文档评论(0)

精品文库 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档