基于文本挖掘的中医学文献主题自动标引-中国中医药信息杂志.PDF

基于文本挖掘的中医学文献主题自动标引-中国中医药信息杂志.PDF

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于文本挖掘的中医学文献主题自动标引-中国中医药信息杂志

2003年 1月第 10卷第 1期 中国中医药信息杂志 ·71· 基于文本挖掘的中医学文献主题自动标引△ * 周雪忠 崔 蒙 吴朝晖 (浙江大学计算机科学与技术学院 杭州 310027) 1 引言 信息抽取(Information Extraction)从自然语言文本中 由于计算机、数据仓库及网格技术的发展,大量数字化科 定位目标数据单元,把非结构化的自由文本转化成符合应用 技文献的 Internet 共享和知识挖掘需求越来越迫切,如何采 要求的结构化数据,即抽取自由文本的数据填充预先定义的 用计算机技术自动或半自动地完成文献的编辑包括文摘、标 结构化模板。信息抽取是一种浅层文本理解技术,它涉及计算 引、关键字的提取等,以减少在文献编辑中人为的不确定性和 语言学和自然语言处理,具有广泛的应用,如会议公告、工作 错误,同时降低人力物力的需求,从而提高文献分类、检索的 招聘和住房出租广告及公司客户 email 分析等,Califf[6]主 效率和质量,已经变得异常突出和重要。在中医领域,由于文 张在信息抽取中采用机器学习来实现其自适应性和一定程度 献资源具有很高的临床价值和理论价值,大量人员从事文献 的领域无关性,Dayne Freitag 和 Andrew McCallum 采用隐 的原始的手工编辑任务。而在实际使用中的《中医药学主题 马尔科夫模型 (HMM)于文本信息的建模和自动抽取,同时为 词表》、《英汉对照医学主题词标引树状结构表》、《医学主题 了减少学习样本文本的手工标识的劳动量,Ellen Riloff 词标引》等词库和规则知识为中医文献自动标引提供了基础 (1996)等人学习从未经标识的文本中自动抽取和发现信息模 资源条件,同时中医学语言是一种次语言(sublanguage),基 式。由于信息抽取的特点使得基于规则学习的系统成为主流, 于次语言的语言处理技术能对中医文本进行相当深度的理解 对自然语言的理解程度和领域知识结合紧密程度决定了信息 式分析和知识抽取。本文将根据文献标引人员的实践经验, 抽取的能力。 面向文献的题名和文摘(文摘可自动生成,考虑到准确性,本 文本分类 (Text Classification)以文本归档(Text 文的系统目前仍基于手工编辑的文摘),采用基于机器学习的 Categorization)为目标,文本分类(归档)就是把大量的文献 信息抽取及文本分类等文本挖掘方法研究中医文献主题词的 集映射到预先定义好的文本属性类中。由于大量文献或全文 自动标引,并简单介绍我们正在实现的中医文献主题自动 信息检索和利用的需要以及 Web 数据的激增和 Web 搜索引擎 标引系统框架。本文的第二节介绍文本处理技术如信息抽 的发展,文献、Web 页面内容的分析和归档技术研究成为热 取、文本挖掘及文献主题标引等内容;第三节分析本文采 点。传统机器学习方法如神经网络、Bayes Network、决策树、 用的机器学习方法;第四节介绍主题标引的难点及解决方 k-最近领域(k-nearest neighbor)及最新的统计学习方法支 法:模糊词识别和概念语义组配等;第五节提供本文的 持向量机(Support Vector Machine)等被用于文本分类和归 IE-based 主题标引系统结构及其各部分功能简要分析;第 档[7],从而大大提高了文本分类的效率和准确度。特征选取及 六节是结论。 其建模是文本分类及其它各种自动文本处理的关键技术之 2 文本挖掘和文献主题自动标引

文档评论(0)

youbika + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档