基于概念信息量的特征权重计算方法的研究.pdfVIP

下载本文档

5
0
约4.09千字
约 5页
2015-08-04 发布于安徽
举报
版权申诉

基于概念信息量的特征权重计算方法的研究.pdf

1、本文档共5页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于概念信息量的特征权重计算方法研究缪建明张全院语言声学与内容理解实验室摘要：特征权重是文本分类中分类计算的核心，对文本分类的效果有着重要的影响。现阶段特征权重计算中广泛采用TF*IDF方法，但这种方法忽略了特征项语义之间的关联性对权重的影响。针对该问题，我们提出了一种新的特征向量权重计算方法(TF*IDF*CIV)，引入语义概念信息量CIV作为一个变量考虑在权重的计算过程中。实验结果表明，该算法是有效可行的，且在一定程度上提高了文本分类的正确率、召回率。关键词：特征向量；概念信息量CIV；语义关联性；TF*IDF 音频声学熵权重和TF．IWF方法，现阶段TF*IDF及其基础上进行的各种改进计算方法被广泛的用来计算特征向量的权重。从本质上说，这些方法均忽略了特征词所含概念对分类的贡献程度，同时也忽略了特征词之间的关联性程度，弱化了文本分类的效果。由此我们提出了本文上，我们引入概念信息量CIV这一变量，通过特征词语义概念符号计算强化特征词的分类贡献程度，同时利用概念之间的关联性弥补了相关特征项弱化分类效果的影响。Resnik根据义类词典中两个概念的共同祖先节点的最大信息量来衡量两个概念的语义相似度，两个概念共享信息越多，其语义相似性越大[3]。由此我们也得出词汇之间的信息量也可以采用词语概念共享信息的多少来计算的结论，我们根据概念符号体系中概念共同祖先节点的最大信息量计算CIV的值。在实验中我们以词为单位形成向量空间模型，利用IG方法进行特征选取，采用TF}IDF木CIV方法实现向量权重计算，使用k一最近邻法构造分类器。实验证明改进后分类准确率提高了6．5个百分点，这也充分证明了这种方法的有效性。 3算法及实现面向文本分类的特征权重分类器装置，由语料收集及预处理装置、特征选择装置、特征权重计算装置、分类器、分类选优装置组成，各部分实现不同的系统功能，具体的算法实现框图如图1所示。最优特征词数t-1 图1算法框图 3．1语料选择实验采用的语料包括6000篇从互连网f-]p网站上收集的文本，分属于三个领域，各领域文本数分别是：市政市容管理类(1019篇)、灾难事件类(2215篇) 和其他类(2766篇)。 3．2特征选取我们采用最常用也是被实验证明最为有效的词作为文本分类的特征项，使用信息增益法来进行特征选取。我们的具体步骤如下： ·-257—- 中国科学院声学研究所第四届青年学术会议论文集 1)提取词表。在分词等预处理结束之后，计算每一个词作为特征的信息增益值。信息增益法依据某特征项t，为整个分类所能提供的信息量多少来衡量该特征项的重要程度，从而决定对该特征项的取舍。其中，信息量的多少由熵来衡量。信息增益即不考虑任何特征时文档的熵和考虑该特征后文档的熵的差值： En仃opy(S Gain(t，)=Entropy(S)一Expectedti) M ^， l云)】 I‘)·log尸(q +P(‘)·【一∑尸(Cj 式中，P(C，)表示C，类文档在语料中出现的概率，P(t，)表示语料中包含特征 J 项tt的文档的概率，P(Cl t，)表示文档包含特征项t，时属于C，类的条件概率， J ，’ I t、 P(‘，)表示语料中不包含特征项t，的文档的概率，uItJ#乙，¨∥表示文档不包含特征项 t，时属于C／类的条件概率，M表示类别数。 6000)的词语，作为特征向量。 3．3特征权重计算方法