基于混合策略的公众健康领域新词识别方法研究 - 图书情报工作.pdf

下载文档 降价啦

4
0
约3.55万字
约 9页
2017-09-02 发布于天津
举报
版权申诉
保障服务

基于混合策略的公众健康领域新词识别方法研究 - 图书情报工作.pdf

1、本文档共9页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

基于混合策略的公众健康领域新词识别方法研究 - 图书情报工作

第５９卷第２３期　２０１５年１２月基于混合策略的公众健康领域新词识别方法研究 ■ 侯丽　李姣　侯震　陈松景中国医学科学院医学信息研究所　北京１０００２０摘要：［目的／意义］从互联网公众查询数据中发现公众使用的健康术语，为建立公众健康术语与医学专业术语的映射提供基础，进而优化健康类知识服务平台的知识组织与管理性能。［方法／过程］设计规则与Ｎ? Ｇｒａｍ相结合的健康术语新词的识别模型，采集公众查询数据，开展实验验证，通过多次实验，逐步完善过滤语料集合，结合人工判读，不断优化并验证方案的有效性。［结果／结论］从互联网中公众提问句抽取出规则，结合统计算法进行公众使用的健康类新词抽取，该技术方法对识别公众使用的健康术语具有一定的通用性，能为建立公众术语与医学术语映射提供数据基础。实验结果表明：基于规则进行公众日志数据预处理，能为后续的实验方案提供较好的预处理文本，而采用ＮＧｒａｍ及各种过滤规则结合的术语识别方法，能较好地识别发现短文 ? 本中的新词。关键词：互联网查询数据　公众健康术语　ＮＧｒａｍ　实体识别 ? 分类号：ＴＰ３９１．１　　ＤＯＩ：１０．１３２６６／ｊ．ｉｓｓｎ．０２５２－３１１６．２０１５．２３．０１７１　引言理解的健康术语之间的桥梁，进而提升健康知识服务平台对知识进行组织与提供服务的能力。　　随着互联网普及率的提高，公众更倾向于通过互　　鉴于如上背景，本文拟从汇集大量公众健康表达习联网获取各种信息。据第八次中国公民科学素养调查惯的语料库中挖掘出公众使用的健康术语形式，从而更好结果，中国具备基本科学素养的公民比例为３．２７％，地为公众提供健康服务。目前大量的机器学习算法都是［１］健康素养水平是６．４８％（２０１３年达到９．４８％），而［２］基于已经标注好的语料进行算法对比与优化实验，而面向医学与健康受公民关注的比例则高达８７．４％。与公众的健康表达习惯尚未形成普适的、可供研究人员使用此同时，医学作为一门快速发展的学科，新的医学词汇的语料集。因此，本文将百度知道（［３］ｈｔｔｐ：／／ｚｈｉｄａｏ．ｂａｉｄｕ．经常涌现，如Ｈ７Ｎ９、中东呼吸综合征，这些新的术语ｃｏｍ）中用户的查询数据作为术语挖掘的语料源，抽取出对于普通公众的理解力而言，存在一定难度。健康素用户提问ｐａｔｔｅｒｎ（模式）作为术语识别的前期规则，结合命养低下在世界范围内普遍存在，美国成年人健康素养［４］名实体识别的相关统计算法，进行公众健康领域的新词识评估调查显示：９３０万美国人拥有“基本”或“低于基别。这一方面有助于建成公众健康领域新词识别的基础本”水平的健康素养水平。原因在于电子病历、临床决策系统、健康知识服务系统中存存在大量公众无法理语料库，为后续开展深入的机器学习算法应用提供语料基解与读懂的专业术语，从而造成公民健康素养与健康础；另一