基于混合策略的公众健康领域新词识别方法研究 - 图书情报工作.pdf

基于混合策略的公众健康领域新词识别方法研究 - 图书情报工作.pdf

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于混合策略的公众健康领域新词识别方法研究 - 图书情报工作

第59卷 第23期 2015年12月 基于混合策略的公众健康领域新词识别方法研究 ■ 侯丽 李姣 侯震 陈松景 中国医学科学院医学信息研究所 北京 100020 摘要:[目的/意义]从互联网公众查询数据中发现公众使用的健康术语,为建立公众健康术语与医学专业 术语的映射提供基础,进而优化健康类知识服务平台的知识组织与管理性能。[方法/过程]设计规则与 N? Gram相结合的健康术语新词的识别模型,采集公众查询数据,开展实验验证,通过多次实验,逐步完善过滤语 料集合,结合人工判读,不断优化并验证方案的有效性。[结果/结论]从互联网中公众提问句抽取出规则,结合 统计算法进行公众使用的健康类新词抽取,该技术方法对识别公众使用的健康术语具有一定的通用性,能为建 立公众术语与医学术语映射提供数据基础。实验结果表明:基于规则进行公众日志数据预处理,能为后续的实 验方案提供较好的预处理文本,而采用NGram及各种过滤规则结合的术语识别方法,能较好地识别发现短文 ? 本中的新词。 关键词:互联网查询数据 公众健康术语 NGram 实体识别 ? 分类号:TP391.1   DOI:10.13266/j.issn.0252-3116.2015.23.017 1 引言 理解的健康术语之间的桥梁,进而提升健康知识服务 平台对知识进行组织与提供服务的能力。   随着互联网普及率的提高,公众更倾向于通过互   鉴于如上背景,本文拟从汇集大量公众健康表达习 联网获取各种信息。据第八次中国公民科学素养调查 惯的语料库中挖掘出公众使用的健康术语形式,从而更好 结果,中国具备基本科学素养的公民比例为3.27%, 地为公众提供健康服务。目前大量的机器学习算法都是 [1] 健康素养水平是6.48%(2013年达到9.48%) ,而 [2] 基于已经标注好的语料进行算法对比与优化实验,而面向 医学与健康受公民关注的比例则高达87.4% 。与 公众的健康表达习惯尚未形成普适的、可供研究人员使用 此同时,医学作为一门快速发展的学科,新的医学词汇 的语料集。因此,本文将百度知道( [3] http://zhidao.baidu. 经常涌现,如H7N9、中东呼吸综合征 ,这些新的术语 com)中用户的查询数据作为术语挖掘的语料源,抽取出 对于普通公众的理解力而言,存在一定难度。健康素 用户提问pattern(模式)作为术语识别的前期规则,结合命 养低下在世界范围内普遍存在,美国成年人健康素养 [4] 名实体识别的相关统计算法,进行公众健康领域的新词识 评估调查显示 :930万美国人拥有“基本”或“低于基 别。这一方面有助于建成公众健康领域新词识别的基础 本”水平的健康素养水平。原因在于电子病历、临床决 策系统、健康知识服务系统中存存在大量公众无法理 语料库,为后续开展深入的机器学习算法应用提供语料基 解与读懂的专业术语,从而造成公民健康素养与健康 础;另一

文档评论(0)

wujianz + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档