三个层面的中文文本主题自动提取研究-中文信息学报.PDF

三个层面的中文文本主题自动提取研究-中文信息学报.PDF

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
三个层面的中文文本主题自动提取研究-中文信息学报

中 文  信  息  学  报 第 15 卷 第 4 期   JOURNAL OF CHINESE INFORMATION PROCESSING Vol . 15 No. 4 三个层面的中文文本主题自动提取研究① 韩客松  王永成  沈  洲  吴芳芳 (上海交通大学  上海  200030) 摘要 :为适应 Internet 时代和大规模文献处理的需要 , 以中文文本为处理对象 ,研究了从 主题词 、主题概念和主题句三个不同层面自动抽取文本主题的方法 ,着重讨论了加权体系和一 些经验值的获取方法 。对新闻类文献做了实验 ,并简单进行了性能分析 。 关键词 :主题词 ; 主题概念 ;主题句 ; 加权 中图分类号 : TP39 1 Extract Subject f rom Chinese Text with Three Diff erent Level s HAN Kesong  WAN G Yongcheng  SHEN Zhou  WU Fangfang ( Shanghai J iaotong U niver sity  Shanghai  200030) Abstract : To meet t he requirement of Internet and large scale text p rocessing ,t his p aper int ro duces how to automatically ext ract subj ect from Chinese text s. We ext ract t he subj ect from t hree different levels : subj ect wor d ,subj ect concept and subj ect sentence . We p ut t he emp hasis on how to form t he weighting system and acquire t he experience coefficient values. Based on t he experi ment al result s of new s articles ,we briefly analyze t he performance . Key words : subj ect wor d ; subj ect concept ; subj ect sentence ; weighting 一 、引言 从文本中自动提取主题 ,一直是自然语言处理的一个难题 。单是在主题词 自动处理层面 上 ,分词 、组词和选词三个步骤哪个都是难点 。但是 ,主题的自动提取又是一个亟待解决的问 题 :不仅主题自动标引离不开它 ,文本分类 、自动摘要 、案例检索等都需要它 。 国内外的学者已经对主题词的自动提取做了一些富有成就的工作 。牛凯提出了一种面向 中文科技文献的自动主题标引系统 ,通过切分匹配 、组合匹配 、标准化和关键词的加权 、去重和 ① 收稿 日期 :2000 - 07 - 29 ;修改稿收到日期 :200 1 - 06 - 06 ( ) 基金项 目:863 计划资助项 目 863 - 306 - ZD03 - 04 - 1 作者韩客松 ,男 ,1973 年生 ,博士研究生 ,研究方向为自然语言处理. 王永成 ,男 ,1939 年生 ,教授 、博士生导师 ,研究方向为网 络智能信息处理. 沈洲 ,男 ,1974 年生 ,博士研究生 ,研究方向为自然语言处理. 吴芳芳 ,女 ,1972 年生 ,硕士研究生 ,研究方向 为自动摘要. 20 排序来自动得到中文科技文献的主题词[ 1 ] 。唐振民、靳从等提出了一种应用领域知识进行档 案文献自动标引的方法 , 能够在一定程度上解决人名 、地名 、机构组织名等 自然主题词[2 ,3 ] 。 薛翠芳 、郭炳炎提出了一种从文本分类角度抽取主题词的新思路[4 ] 。

您可能关注的文档

文档评论(0)

magui + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8140007116000003

1亿VIP精品文档

相关文档