- 1、本文档共9页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
中文ugc信息源的本体概念抽取研究
总第246 期 2014 年 第5 期
中文UGC 信息源的本体概念抽取研究*
唐晓波 胡 华
(武汉大学信息管理学院 武汉 430072)
摘要: 【目的 】实现基于UGC 信息源的本体概念抽取。【方法 】针对UGC 信息源特征, 提出一种基于语言学的
细粒度词抽取组合并应用统计过滤组成概念的本体概念抽取方法, 建立基于UGC 信息源的概念抽取模型并对原
型系统进行验证。【结果 】在UGC 信息源概念抽取实验中, 该方法的结果比其他 4 组概念抽取方法的表现更为
优异, 准确率达68.42%, 召回率达85.35%。【局限 】概念抽取的测试集来自信息质量较高的UGC 信息源, 部分
信息经过人工过滤, 语料规模存在不足。【结论 】概念抽取方法与技术在实现基于UGC 信息源的本体概念抽取
中具有一定的意义。
关键词: 概念抽取 词性规则 中心词 互信息 信息熵
分类号: TP391
1 引 言 户自创的词汇, 因此给计算机自动化地实现概念抽取
造成很多障碍。
随着Web2.0 技术的迅猛发展, 社会化媒体(Social
Media) 已成为全球信息传播和共享的重要资源平台, 2 概念抽取研究现状
是人们生活中不可缺少的部分。用户生成内容(UGC)
目前本体概念的获取方法主要有: 基于语言学的
作为用户利用社会化媒体的结果, 成为互联网领域新
的应用和商业模式, 存在巨大的潜在价值[1] 。用户参与 方法、基于统计的方法及混合方法。
基于语言学的方法是以语言学为基础, 应用词汇
内容的创造, 一方面为互联网提供了丰富的知识, 另
[3] [4]
一方面也形成了“无序、去中心化、碎片化”的UGC 信 的构词规则来实现概念抽取 , 如化柏林 运用词表
息, 加剧了用户在社会化媒体中的“信息过载”和“信息 与规则相结合的方法从句子中抽取方法术语; 丁君军
[5]
迷失”[2] 。如何从海量UGC 中提炼出具有价值的知识 等 通过人工构建规则的方法, 提出属性抽取的 9 大
并进行科学合理的组织, 供用户及研究人员查询并利 类描述规则。基于语言学的概念获取方法具有很多优
用, 是当前的迫切需要。 点: 极少存在歧义; 抽取规则简单, 效率较高。但是该
本体作为一种能在语义层次上表达知识的概念模 方法的可移植性较差, 面对大量数据制定规则时, 需
型工具被广泛使用, 它是解决信息增长与信息利用之 消耗大量的时间及精力, 同时还受语言学知识质量的
间矛盾的办法之一。由于UGC 信息的特点, 使用手工 影响, 且人工规则无法涵盖全部本体概念, 易造成提
方式构建 UGC 信息源中的本体不太现实, 需要应用 取规则之间的冲突。
本体学习(Ontology Learning)技术自动构建本体。概念 基于统计的方法是通过分析大量语料文本, 获取
抽取是本体学习的基础, 也是本体构建中最重要的组 词语在文本中的各类统计数据, 进行概念抽取。如
成部分之一。由于UGC 信息分布稀疏, 变化迅速且表 Yang 等[6]通过互信息、信息熵与共生句子来完成概念
达不规范, 文本中含有大量口语化、缩略形式以及用 的提取并实现本体构建; Cohen[7]对词频统计法添加参
收稿日期: 2013-1
您可能关注的文档
- 一种支持更新操作的数据空间访问控制方法access-电子与信息学报.pdf
- 一种结合随机模板编码的虚拟光学三维数字水印系统深圳大学.pdf
- 一种结合词向量和图模型的特定领域实体消歧方法-智能系统学报.pdf
- 下水道工程设施标准-磐诚工程顾问股份有限公司.doc
- 一种非凸核范数最小化一般模型及其在图像去噪中的应用-计算机科学.pdf
- 一种采用图像特征匹配技术的rgb ̄dslam算法.pdf
- 不动产交付占有物权变动效力的证成与其对抗力分析*.pdf
- 一种领域本体构建方法及其在相片管理中的应用-计算机系统应用.pdf
- 一类分数阶微分方程边值问题解的存在性-郑州大学学报理学版.pdf
- 不同生态系统水分利用效率指标在黄土高原半干旱草地-植物生态学报.pdf
- 金融产品2024年投资策略报告:积极适应市场风格,行为金融+机器学习新发现.pdf
- 交运物流2024年度投资策略:转型十字路,峰回路又转(2023120317).pdf
- 建材行业2024年投资策略报告:板块持续磨底,重点关注需求侧复苏.pdf
- 宏观2024年投资策略报告:复苏之路.pdf
- 光储氢2024年投资策略报告:复苏在春季,需求的非线性增长曙光初现.pdf
- 公用环保2024年投资策略报告:电改持续推进,火电盈利稳定性有望进一步提升.pdf
- 房地产2024年投资策略报告:聚焦三大工程,静待需求修复.pdf
- 保险2024年投资策略报告:资产负债匹配穿越利率周期.pdf
- 政策研究2024年宏观政策与经济形势展望:共识与分歧.pdf
- 有色金属行业2024年投资策略报告:新旧需求共振&工业原料受限,构筑有色大海星辰.pdf
文档评论(0)