网站大量收购独家精品文档,联系QQ:2885784924

中文ugc信息源的本体概念抽取研究.pdfVIP

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
中文ugc信息源的本体概念抽取研究

总第246 期 2014 年 第5 期 中文UGC 信息源的本体概念抽取研究* 唐晓波 胡 华 (武汉大学信息管理学院 武汉 430072) 摘要: 【目的 】实现基于UGC 信息源的本体概念抽取。【方法 】针对UGC 信息源特征, 提出一种基于语言学的 细粒度词抽取组合并应用统计过滤组成概念的本体概念抽取方法, 建立基于UGC 信息源的概念抽取模型并对原 型系统进行验证。【结果 】在UGC 信息源概念抽取实验中, 该方法的结果比其他 4 组概念抽取方法的表现更为 优异, 准确率达68.42%, 召回率达85.35%。【局限 】概念抽取的测试集来自信息质量较高的UGC 信息源, 部分 信息经过人工过滤, 语料规模存在不足。【结论 】概念抽取方法与技术在实现基于UGC 信息源的本体概念抽取 中具有一定的意义。 关键词: 概念抽取 词性规则 中心词 互信息 信息熵 分类号: TP391 1 引 言 户自创的词汇, 因此给计算机自动化地实现概念抽取 造成很多障碍。 随着Web2.0 技术的迅猛发展, 社会化媒体(Social Media) 已成为全球信息传播和共享的重要资源平台, 2 概念抽取研究现状 是人们生活中不可缺少的部分。用户生成内容(UGC) 目前本体概念的获取方法主要有: 基于语言学的 作为用户利用社会化媒体的结果, 成为互联网领域新 的应用和商业模式, 存在巨大的潜在价值[1] 。用户参与 方法、基于统计的方法及混合方法。 基于语言学的方法是以语言学为基础, 应用词汇 内容的创造, 一方面为互联网提供了丰富的知识, 另 [3] [4] 一方面也形成了“无序、去中心化、碎片化”的UGC 信 的构词规则来实现概念抽取 , 如化柏林 运用词表 息, 加剧了用户在社会化媒体中的“信息过载”和“信息 与规则相结合的方法从句子中抽取方法术语; 丁君军 [5] 迷失”[2] 。如何从海量UGC 中提炼出具有价值的知识 等 通过人工构建规则的方法, 提出属性抽取的 9 大 并进行科学合理的组织, 供用户及研究人员查询并利 类描述规则。基于语言学的概念获取方法具有很多优 用, 是当前的迫切需要。 点: 极少存在歧义; 抽取规则简单, 效率较高。但是该 本体作为一种能在语义层次上表达知识的概念模 方法的可移植性较差, 面对大量数据制定规则时, 需 型工具被广泛使用, 它是解决信息增长与信息利用之 消耗大量的时间及精力, 同时还受语言学知识质量的 间矛盾的办法之一。由于UGC 信息的特点, 使用手工 影响, 且人工规则无法涵盖全部本体概念, 易造成提 方式构建 UGC 信息源中的本体不太现实, 需要应用 取规则之间的冲突。 本体学习(Ontology Learning)技术自动构建本体。概念 基于统计的方法是通过分析大量语料文本, 获取 抽取是本体学习的基础, 也是本体构建中最重要的组 词语在文本中的各类统计数据, 进行概念抽取。如 成部分之一。由于UGC 信息分布稀疏, 变化迅速且表 Yang 等[6]通过互信息、信息熵与共生句子来完成概念 达不规范, 文本中含有大量口语化、缩略形式以及用 的提取并实现本体构建; Cohen[7]对词频统计法添加参 收稿日期: 2013-1

您可能关注的文档

文档评论(0)

zhuwo + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档