- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中文病理文本的结构化处理方法研究-计算机科学
Vo 1. 43 No. 10
第 43 卷第10 期 计算机科学
2016 年 10 月 Computer Science Oct 2016
中文病理文本的结构化处理方法研究
陈德华冯洁莹乐嘉锦潘乔
(东华大学计算机科学与技术学院 上海 20005 1)
摘 要 病理文本作为一类重要的非结构化临床文档,对临床诊断至关重要。针对具体的中文病理文本数据,提出一
种简单有效结构化处理方法。首先对中文病理历史文本数据进行预处理,包括数据清洗、短句切分及主千提取等步
骤,从中提取出各个样本所对应的文本信息P 然后通过短句聚类和统计参数筛选实现样本描述模板的提取;最后利用
模板对病理文本进行即时结构化处理,得到最终的结构化处理结果。实验证明,该方法对同类文本可以达到很好的结
构化效采;同时提取的模板会被定期优化以适应最新的数据结构化需求。
关键词 中文病理文本,结构化,短句聚类,模板提取
中固法分类号 TP39 1. 1 文献标识码 A DOI 10. 11896/j. issn. 1002-137X. 2016. 10.051
Research on Structured Method for Chinese Pathological Text
CHEN De-hua FENG Jie-ying LE Jia-jin PAN Piao
CSchool of Computer Science and Technology ,Donghua University ,Shanghai 200051 ,China)
Abstract Pathological text as an important kind of unstructured clinical documents ,is essential to clinical diagnosis. For
the specific Chinese pathological text ,this paper put forward a simple and effective structured approach. Firstly the Chi
nese pathological texts are preprocessed , including data cleaning , clauses split and trunk extraction , in order to extract
the corresponding information of each sample. Then each sample s final template inforτnation is extracted by the way of
clauses clustering and statistical parameters filtering. Finally ,the templates are used for immediate pathological text
structuring process ,and the structured results are obtained. Experiments show that the proposed method can achieve
satisfactory structured results for similar pathological texts ,and the extracted templates will be regularly optimized to
meet the needs of the
文档评论(0)