- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
中文病历文本分词方法研究
35 卷 4 期 中 国 生 物 医 学 工 程 学 报 Vol. 35 No. 4
2016年8月 Chinese Journal of Biomedical Engineering August 2016
中文病历文本分词方法研究
1 1,2,3∗ 4 5
李国垒 陈先来 夏 冬 杨 荣
1(中南大学信息安全与大数据研究院,长沙 410013)
2 (医学信息研究湖南省普通高等学校重点实验室(中南大学),长沙 410013)
3 (湖南省高等学校医学大数据2011协同创新中心,长沙 410013)
4 (中国科学院成都文献情报中心,成都 610041)
5 (中南大学湘雅医院,长沙 410078)
摘 要:探索适合医学文本的分词方法,为医学数据挖掘和临床决策支持的语义分析奠定基础。 分别使用单纯中
科院ICTCLAS分词、ICTCLAS+ 自定义词典、ICTCLAS+统计分词和ICTCLAS+ 自定义词典结合互信息统计分词4
种策略,对1500份出院记录中的病历文本进行分词处理,并从准确率、召回率和综合指标值等3个方面对分词结果
进行评价。 以人工分词的50份出院记录结果为标准依据,4 种分词策略的综合指标值分别为4577%、5876%、
6493%和7806%。 结果证实,自定义词典结合基于互信息的统计分词方法,能够有效地对病历中出院记录文本
进行分词处理,可以满足临床数据分析的需求,具有良好的推广意义。
关键词:病历文本;中文分词;统计分词;词典分词;出院记录
中图分类号 R318 文献标志码 D 文章编号 0258⁃8021(2016)04⁃0477⁃05
Research on Segmentation of Chinese Text in Medical Record
1 1,2,3 4 5
Li Guolei Chen Xianlai Xia Dong Yang Rong
1 (Institute of Information Security and Big Data,Central South University,Changsha410013,China)
2 (Key Laboratory of Medical InformationResearch (Central South University),College of Hunan Province,Changsha410013,China)
3 (Hunan Province CooperativeInnovation Center of Medical Big Data,Changsha410013,China)
4 (ChengduDocumentation and Information Center,ChineseAcademy of Sciences,Chengdu610041,China)
5 (Xiangya Hospital,Central South University,Changsha410078,China)
Key words:electronic medical record; Chinese text segmentation; stati
文档评论(0)