中文生物医学文本无词典分词方法研究王军辉摇胡 - researchgate.pdfVIP

  • 6
  • 0
  • 约2.21万字
  • 约 9页
  • 2017-09-03 发布于天津
  • 举报

中文生物医学文本无词典分词方法研究王军辉摇胡 - researchgate.pdf

中文生物医学文本无词典分词方法研究王军辉摇胡 - researchgate

See discussions, stats, and author profiles for this publication at: /publication/303073144 Research on Method for Chinese Word Segmentation without Thesaurus in Chinese Biomedical Text Article · Februar 2011 DOI: 10.3772/j.issn.1000-0135.2011.02.012 CITATIONS READS 0 51 5 authors, including: Wang Junhui Institute of Medical Information 2 PUBLICATIONS 0 CITATIONS SEE PROFILE Some of the authors of this publication are also working on these related projects: Scientific Creativit View project All content following this page was uploaded b Wang Junhui on 14 Ma 2016. The user has requested enhancement of the downloaded file. All in-text references underlined in blue are added to the original document and are linked to publications on ResearchGate, letting ou access and read them immediatel . 情 报 学 报摇 摇 摇 ISSN 1000-0135 JOURNAL OFTHE CHINA SOCIETY FOR SCIENTIFIC ANDTECHNICAL INFORMATION ISSN 1000 -0135 第30卷第2期197 - 203,2011年2月 Vol.30 No.2,197 - 203 February 2011 試試試試試試試試試試試試試試試試試試試試試試試試試試試試試試試試試試試試試試試試試試試試試試試試 doi:10.3772/ j.issn.1000鄄0135.2011.02.012 中文生物医学文本无词典分词方法研究 王军辉摇 胡铁军摇 李丹亚摇 钱摇 庆摇 方摇 安 (中国医学科学院医学信息研究所,北京100020) 摘要摇 摇 为了在不利用词典的条件下实现对中文生物医学文本的有效切分,结合中文生物医学文本专业术语多、新 术语不断出现和结构式摘要的特点,引入一种基于重现原理的无词典分词方法,并在实际应用过程中从分词长度上限 值的设定和层次特征项抽取两方面对其进行了改进。 实验结果表明,该方法可以在不需要词典和语料库学习的情况 下,实现对生物医学文本中关键性专业术语的有效抽取,分词准确率约为84.51%。 最后,基于本研究中的分词结果, 对生物医学领域的词长分布进行了初步探讨,结果表明中文生物医学领域的词长分布与普通汉语文本有非常大的差 异。 研究结果对在处理中文生物医学文本时N鄄gram模型中N值的确定具有一定的参考价值。 关键词摇 摇 无词典分词摇 结构式摘要摇 生物医学文本 Research on Method for Chinese Word Segmentation with

文档评论(0)

1亿VIP精品文档

相关文档