基于权重的马尔可夫随机游走相似度度量的实体识别方法.pdfVIP

基于权重的马尔可夫随机游走相似度度量的实体识别方法.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于权重的马尔可夫随机游走相似度度量的实体识别方法.pdf

第 34卷 /第 1期 / 河北师范大学学报 /自然科学版 / Vo1.34No.1 2010年 1月 dOURNALOFHEBEINORMALUNIVERSITY/NaturalScienceEdition/ Jan.201O 基于权重的马尔可夫随机游走相似度 度量的实体识别方法 雷钰丽 , 李 阳 , 王崇骏 , 刘红星 , 谢俊元 (1.南京大学 计算机软件新技术国家重点实验室,江苏 南京 210093; 2.安阳工学院计算机科学与信息工程系,河南 安阳 455000) 摘 要 :社会网络分析方法是一种量化 的社会学分析方法 ,它将社会行动者映射为图的节点,社会行动者之间 的关系映射为图的边,然后利用图论的相关知识来解决社会网络的问题.在算法改进和系统实现层面展开数据挖 掘在社会 网络分析 中的应用研究,在对基于图的实体识别方法进行深入研究的基础上 ,提 出了基于马尔可夫随机 游走相似度度量 的方法 ,使其能够应用于有权有 向图上 的实体识别 。并在此基础上提 出可 以处理多链接属性的实 体识别算法.基于电信分析系统平台,重点研究和分析了上述算法的具体应用并在 电信数据集上进行测试,应用结 果表明上述算法的有效性和实用性 . 关键词 :社会网络分析 ;数据挖掘 ;实体识别 ;马尔可夫;随机游走 中图分类号 :TP31l 文献标识码 :A 文章编号 :1000.5854(201O)01—0026.05 社会网络分析是从社会学研究发展起来的研究社会结构的新方法和新技术 ,它是以 “关系”作为基本 的 研究单位….处于社会中的个人或者主体根据 自己的需要通过 自己的通信关系建立起不 同的社会关系网 络 .通过分析这些通信关系,发现社会实体之间存在的相互依赖和联系,是典型的社会网络分析问题.将数据 挖掘技术应用于社会网络分析中是 目前的一个研究热点,已经有了一些典型的理论与应用成果 . 社会网络分析方法是一种量化的社会学分析方法 .它将社会行动者映射为图的节点,社会行动者之间的 关系映射为图的边 ,然后利用图论的相关知识来解决社会网络的问题.实体识别是社会网络分析中的一个重 要研究分支,其 目的是在混淆的实体中找出其真正对应的实际实体 .传统的实体识别方法根据描述实体的字 符串的相似度来表征实体间的相似程度,然后利用相似度度量进行聚类 J.而 目前关于实体识别的研究兴 趣主要集 中在使用链接或者关系结构来提高实体识别的精度,其出发点主要是:不仅考虑实体的属性之间的 相似度 ,还考虑到与其相连的其他实体对其的影响. 文献[6]扩展了基于属性的相似度,既考虑了实体的属性 ,又把实体之间的链接关系考虑在 内.该方法虽 然考虑到链接可以增强实体识别 的准确度 ,但没有考虑新识别 的实体对未识别实体带来的影响.基于此,文 献[7.8]提出了协同实体识别的思想 ,其具体做法是在聚类过程中将节点属性 、链接属性以及链接结构等因 素作为相似性衡量标准来挖掘图结构 中数据实体 . 还有一些研究者采用概率模型来进行实体的识别 ,基础性的工作是 Fellegi和 Sunter在继承 NewCombe 工作的基础上完成的[.文献 [10]提出了基于NaiveBayes的混合模型来进行重名的分析.文献 [11]借鉴了 用于文本聚类的LDA模型并扩展它使其在协同实体识别中得到应用 ,也取得了很好的效果. 随着实体识别领域的扩大,出现了一些新的应用场景,在新的应用场景中,如果采用原先的相似度度量 进行模拟,可能会丢失一些有用信息.在原有相似度度量的基础上,把应用场景中一些丢失的有用信息加入 到度量标准中来形成新 的相似度度量标准 . 在基于图的实体识别中节点表示实体,边表示实体之间的联系.把链接属性加入到相似度的度量中,就 是利用节点的相关联实体来发现实体间的相似度.基于链接的建模方式提高了实体识别的精度,但是前期的 收稿 日期 :2009.05.12;修回 日期 :2009.06.25 基金项目:国家 自然科学基金60721002;江苏省高新技术计划(BG2007038) 作者简介 :雷钰丽(1984一),女,江西丰

文档评论(0)

kittymm + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档