- 1、本文档共9页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于混合策略的公众健康领域新词识别方法研究 - 图书情报工作
第59卷 第23期 2015年12月
基于混合策略的公众健康领域新词识别方法研究
■ 侯丽 李姣 侯震 陈松景
中国医学科学院医学信息研究所 北京 100020
摘要:[目的/意义]从互联网公众查询数据中发现公众使用的健康术语,为建立公众健康术语与医学专业
术语的映射提供基础,进而优化健康类知识服务平台的知识组织与管理性能。[方法/过程]设计规则与 N?
Gram相结合的健康术语新词的识别模型,采集公众查询数据,开展实验验证,通过多次实验,逐步完善过滤语
料集合,结合人工判读,不断优化并验证方案的有效性。[结果/结论]从互联网中公众提问句抽取出规则,结合
统计算法进行公众使用的健康类新词抽取,该技术方法对识别公众使用的健康术语具有一定的通用性,能为建
立公众术语与医学术语映射提供数据基础。实验结果表明:基于规则进行公众日志数据预处理,能为后续的实
验方案提供较好的预处理文本,而采用NGram及各种过滤规则结合的术语识别方法,能较好地识别发现短文
?
本中的新词。
关键词:互联网查询数据 公众健康术语 NGram 实体识别
?
分类号:TP391.1
DOI:10.13266/j.issn.0252-3116.2015.23.017
1 引言 理解的健康术语之间的桥梁,进而提升健康知识服务
平台对知识进行组织与提供服务的能力。
随着互联网普及率的提高,公众更倾向于通过互
鉴于如上背景,本文拟从汇集大量公众健康表达习
联网获取各种信息。据第八次中国公民科学素养调查
惯的语料库中挖掘出公众使用的健康术语形式,从而更好
结果,中国具备基本科学素养的公民比例为3.27%,
地为公众提供健康服务。目前大量的机器学习算法都是
[1]
健康素养水平是6.48%(2013年达到9.48%) ,而
[2] 基于已经标注好的语料进行算法对比与优化实验,而面向
医学与健康受公民关注的比例则高达87.4% 。与
公众的健康表达习惯尚未形成普适的、可供研究人员使用
此同时,医学作为一门快速发展的学科,新的医学词汇
的语料集。因此,本文将百度知道(
[3] http://zhidao.baidu.
经常涌现,如H7N9、中东呼吸综合征 ,这些新的术语
com)中用户的查询数据作为术语挖掘的语料源,抽取出
对于普通公众的理解力而言,存在一定难度。健康素
用户提问pattern(模式)作为术语识别的前期规则,结合命
养低下在世界范围内普遍存在,美国成年人健康素养
[4] 名实体识别的相关统计算法,进行公众健康领域的新词识
评估调查显示 :930万美国人拥有“基本”或“低于基
别。这一方面有助于建成公众健康领域新词识别的基础
本”水平的健康素养水平。原因在于电子病历、临床决
策系统、健康知识服务系统中存存在大量公众无法理 语料库,为后续开展深入的机器学习算法应用提供语料基
解与读懂的专业术语,从而造成公民健康素养与健康 础;另一
文档评论(0)