- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种基于多重因子加权文本特征项权值计算方法
一种基于多重因子加权的文本特征项权值计算方法
摘要:根据中文文本的特点,不仅考虑文本中词汇概率信息,还结合文本语义等多方面信息来计算文本特征项的权值,从而提出一种基于多重因子加权的特征项权值计算方法,并给出具体算法#65377;通过与基于词频及基于TF-IDF的特征项权值计算方法的比较试验,证明文中提出的特征项权值计算方法能有效提高文本聚类的正确率#65377;
关键词:特征项;文本聚类;中文文本;自然语言处理
中图分类号:TP301
文献标识码:A
1引言
随着Internet的日益发展和网上各类信息的迅猛增长,文本聚类成为处理和组织大量文本数据的关键技术之一[1]#65377;因此,研究利用计算机进行文本聚类成为自然语言处理和人工智能领域中一项具有重要应用价值的课题#65377;
但是,在现在的文本自动信息处理的研究中,研究者往往只试图从改进后期的处理算法来提高其效率或精度,而忽略了特征项权值计算方法的重要性#65377;因此,文章对特征项的权值计算方法进行了研究,并提出了一种基于多重因子加权的特征项权值计算方法#65377;在该方法中,首先不是简单的依据词频来计算特征项的权值,而是对词汇在文本中的出现概率及语义特点进行分析并通过多重加权的方法来确定特征项的权值#65377;文章将此特征项权值计算方法应用于文本聚类,并进行了对比实验,实验表明这种特征项权值计算方法提高了聚类精度#65377;这说明好的特征项权值计算方法能够更好地反映文本类型的根本特点和属性,对于提高文本信息处理的性能有着重要的作用#65377;
2特征项分析及多重加权
通常文本数据具有有限的结构, 甚至大部分没有结构, 而文本的内容是用自然语言描述, 计算机无法直接理解其语义和进行相应的处理,所以需要对文本进行特征表示,抽取代表其特征的元数据#65377;在中文文本中,词是具有独立语义特性的最小单位,因此,在文本的特征值提取中都是按词来抽取特征项,然后将这些特征项用结构化的形式表示#65377;目前, 在文本信息处理领域中, 向量空间模型(Vector Space Model, VSM)是应用较多且效果较好的表示方法之一[2]#65377;在VSM中,文本被形式化为多维空间中的一个点,其形式为:d=d(t1,w1,t2,w2,…,tn,wn),其中ti为特征项,wi为特征项的权值,简记为d=d(w1,w2,…,wn)#65377;可见,向量空间模型中每一维的值表示该词语在此文本中的权重,用以刻画该词语在描述文本内容时所起作用的重要程度#65377;传统计算词语权重的方法是词频,但是词频只是反映词语的出现频率,不能真正反映词语在文本中出现的重要程度#65377;因此,文章从文本特征项的出现频率和语义两个角度来考虑提出了一种基于多重因子加权的文本特征项权值计算方法#65377;下面,先介绍频率加权因子#65377;
2.1频率加权因子
频率加权因子是指特征项在文本中出现的概率(即词频)及特征项在文本集中出现的频率(即文本频数)两个权重因子#65377;
将这两个因子结合在一起,就得到了频率加权因子的计算公式,也就通常的TF-IDF公式[3],如公式(1)所示:
其中,tf(ti,d)表示ti在文本d中出现的频率,如果一个词在这个文本中出现得非常多,那么它就非常可能与这个主题密切相关,所以重要性就高,反之重要性就低#65377;N是文本集中文本的个数,df(ti)是词ti在文本集中出现词ti的文本个数,N/df(ti)是逆文本频数,说明特征项在较多的文本出现,它的重要性就越低,集中在少数文本中,就具有较高的权重#65377;
在得到w(ti,d)之后,下一步就来考虑词语的语义信息,并且通过不断修改权值w(ti,d)的方式来反映词汇不同的特点#65377;
2.2语义加权因子
对于自然语言(这里指中文),词语与词语之间存在着大量的语义关系,如同义#65380;近义#65380;同现等,另外,词语出现在文中的不同位置也有不同的语义特点#65377;语义分析,就是从中文文本的语义角度出发,希望能用对相应权值的改变来反映文本的语义特征#65377;文章主要从下面三个方面来将语义信息反映到向量权值中#65377;
2.2.1位置权重
国内有人抽样统计,国内中文期刊自然科学论文的标题与文本的基本符合率为98%,新闻文本的标题与主题的基本符合率为95%[4]#65377;美国一学者进行过统计,反映主题的句子,80%出现在段首,10%出现在段尾#65377;这说明不同位置的词对文本的作用也是不一样的,有些词虽然出现
文档评论(0)