基于文本分类中特征提取的领域词语聚类刘华摘要本文以领域特征.doc

基于文本分类中特征提取的领域词语聚类刘华摘要本文以领域特征.doc

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于文本分类中特征提取的领域词语聚类刘华摘要本文以领域特征

基于文本分类中特征提取的领域词语聚类 刘华 [摘要]本文以领域特征明显的词和短语作为聚类对象,在分类系统的大规模语料库中,利用文本分类的特征提取方法进行词语的领域聚类,从而获得大规模的领域知识,用于文本分类和主题分析。 [关键词]特征提取 领域词语 聚类 Clustering Field Words by Character Extraction in Text Classification Abstract: Towards building a large-scale domanial repository for text categorization and topic analysis, this paper presents an algorithm that clusters field Words in classed large-scale corpus by character extraction in text categorization. Keywords: Character Extraction, domanial words, Clustering 一 引言 领域知识获取是基于内容的文本处理中的基础关键技术。文本分类和主题分析需要庞大的领域词表支持,依靠具有强文本内容表示功能的特征词语进行类目或主题的区分、主题词或关键词的标引。在信息抽取和信息检索中,抽取和检索的对象很大程度上也是领域相关的。 目前很多著名的知识库主要依靠专家手工构建,如WordNet、HowNet。除此之外,也有许多自动方法来获取领域词语,主要分为两类:基于规则和基于统计的。基于规则的方法利用人工构建好的领域词语特征字(词)库(如“*病”)、经常与领域词语共现的指示词库(如“*防治”)和指示领域关系的关系词语库(如“学名为*”),在大规模语料中利用模板匹配的方式获取领域词语。基于统计的方法简单快速,主要利用机器学习的方法进行领域词语获取,如基于Bootstrapping、互信息、TFIDF等的领域词语自动获取。 本文将利用文本分类中的特征提取方法在大规模分类语料中自动获取领域词语。 二 定义说明 在本文中将用到以下概念: 领域词语 词语表可分为通用词语和领域词语两部分,简单地说,领域词语是具有强文本表示功能的特征词语。所谓强文本表示功能,是指在文本表示时,能将文本的内容特征(例如领域类别、主题思想、中心意义等)鲜明地表示出来。例如,常见的虚词性成分(“总而言之”)的文本表示功能弱,而一些领域性强的体词性成分(“封闭式基金”)则文本表示功能强。 领域通用词和领域专类词 领域词语中又可根据词语的领域流通度分为领域通用词和领域???类词。领域通用词是表示领域的基本词语,代表了该类领域的质心特征,如体育类的“比赛、球队”;领域专类词专指性强、区别度高,能将领域的详细特征区分开来,如体育类中的“世界拳击理事会、拳王”则不仅可以将体育类和其他类区分开,还能将体育类内部的小类如拳击区分出来。 三 特征提取方法分析 在文本自动分类中,关键的一个技术是特征提取。特征提取的步骤包括:词语切分,词频统计,加权计算和特征选择(二者通常结合在一起进行)。 经过权重计算和特征选择后,就能生成文本类别的核心向量,这些向量中的特征词可以认为是能代表该类文本特征的类别领域词。 权重计算和特征选择有很多计算公式,如信息增益、期望交叉熵、文本证据权、χ2 统计量等,其中最著名的是TFIDF公式。那么,权重计算和特征选择的公式究竟哪个为优呢?其实在这些公式中,关键在于特征选择时的倾向:高频词或稀有词,也就是公式中的P(w)因子起很大作用,因为一个单词出现的频繁程度,并不能说明这个单词对于分类很重要,有许多重要单词只出现很少次数,而很多次要单词却频繁出现。例如游戏类中很多的游戏名称(如“足球经理2003”、“暗黑破坏神”)、体育娱乐类中人名等专名,往往频次不高,却能一词定类。在以往研究者的文章中,都倾向于高频单词,其中Yang和Djujia Mladenic的文章综合比较分析了很多种特征评估函数的优劣,并特别指出,信息增益的缺点在于考虑了单词未发生的情况,互信息的缺点在于没有考虑P(w)因子,以致倾向于稀有单词。期望交叉熵克服了两者的缺点,所以效果比它们都好,同理,文本证据权也考虑了P(w),也是一种较好的评估函数。[唐焕玲等,2003]的实验表明,如果修改一下信息增益及文本证据权的公式,把它们的P(w)因子去掉,它们的权值调整效果即会大幅度提高,接近于互信息的量级。 在第二节中,我们提到领域词语可分为领域通用词和领域专类词。其实,二者的区别是在领域区别度基础上的频率差别,即二者都具有较高的领域区别度,但在领域内的频率不同。因此,在特征选择时,我们应该充分

文档评论(0)

laolao123 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档