- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于词关联语义的文本分类研究.pdf
基于词关联语义的文本分类研究
李爱吉党齐民 吕冬煜
本文在对已有文本分类技术研究的基础上,提出了一种基于词关联语义的文本分类方法。
该方法根据上下文中的词关联对同义词和多义词进行了有效的区分,经过实际使用该方法可
改善文本分类的效率和准确性,取得了较好的应用效果。
1 引言
近几年,随着信息处理技术的发展和互联网络技术的普及,在Intemet上可供利用的文本
信息急剧增长,这为人们查找、获取有用信息提供了丰富的信息源,但同时也给信息的准确定
位和提取提出了新的挑战。因此,文本分类技术和关联信息提取技术的研究和开发就成为人
们所关注的热点,渴望能以此帮助人们快速、准确地发现、组织和提取所需要的信息。
目前用于文本分类的方法可分为基于人工智能的方法、基于人工神经网络的方法和基于
统计学的方法三大类,其中基于人工智能的方法包括机器翻译、信息语义搜索和创建专家系
统,有较强解决实际问题的能力,但由于依赖于涉及背景领域的语言规则,因此只能适用于单
一的领域;基于人工神经网络的方法虽然具有“模型无关”性,同时能够通过调整使得输出在
特征空间中逼近任意目标,可以处理一些简单的分析任务,但总的来说,其解释复杂,本身也得
不到任何语义的信息,所以还不太适合语言结构处理;而基于统计学的方法则主要是根据对文
档本身中词的频度和关联度等方面的统计来实现文本分类的,并不需要依赖背景知识和语言
规则,计算简单且有效,从而得到了较为广泛的应用。
文本的分类技术和关联信息提取技术与信息获取模型紧密相关,目前大多数信息获取模
型都以矢量空间模型为基础。矢量空间模型把文档集看作是以词的权重为分量的一组正交矢
点,于是文档集中所有文档的匹配问题即可转化为矢量空间中的矢量匹配问题。由于矢量空
间模型中词的权重以及文档矢量问的相似度的计算可根据具体应用采用不同方法,因而具有
较大的灵活性,这为各种文档分类方法提供了一个有效的理论及实践框架。但是在该模型中,
由于文档集所对应的是一个高阶的稀疏矩阵,因此汁算量巨大;同时由于词间多义性和同义性
的存在,因而会使不相关的文档被聚类在一起,而相关的文档不能聚类在一起。
因此,在文档分类和关联信息提取的研究中,对原始数据的降维处理以及对文档的语义分
133
析具有非常重要的作用。本文在对已有文本分类技术研究的基础上,提出了一种基于词关联
语义的文本分类方法。
2算法的基本思想
虽然一个词可能具有多义性,不同的词可能具有同义性,但是如果能够结合该词所在的上下
文环境中出现的其他词来对其进行理解的话,则在某种程度上可以排除由于该词的多义性和同
义性对文本分类所造成的干扰。若以文档集中的每个句子作为一个单位,则当两个词同时出现
在一个句子中时认为它们相关联,这样就可以以句子为单位建立起词之间的关联度,关联度矩阵
可定义为:A=L%J…~a=同时包含词i和词,的句子的总数,n为文档集中词的个数。
由于在文档中同一句子中的内容具有较高的相关性,所以彼此问与同一主题有关的不同
的词在同一句子中一起出现的概率也就相当高,这就保证了我们依据这种基于词关联度进行
文档分类时能得到较高的主题聚合;同时由于同义的词必定都和相关主题的其他词有较高的
关联度,如“计算机”和“电脑”是同义词,那它们都必定和相关主题的其他词,如“硬盘”,分别
在同一句子中出现的概率较高,从而保证都和“硬盘”有较高的关联性,这也就使得我们依据
该分类方法进行文档分类时能保证同义词之间通过相关主题的其他词而聚合;另外,对于词的
多义性,由于多义的词在表现不同的意义的时候必定是和不同的词一起出现的,因此根据和该
多义词一起出现的其他词,即关联度高的词,我们就可相对准确地判断出该多义词的真实意
义,这也就进一步确保了我们依据这种分类方法进行文档分类时能将多义词的不同意义分离
开来。
在上述思想的基础上,我们给出了基于词关联语义的文本分类方法。该方法是基于概念
空阔的文档分类方法,它通过对词的分类来给出文档分类的概念空间。主要的分类过程分为
如下六步:
①通过词在整个文档集中的权重提取出关键词。
中的第i个词,ref。为第i个关键词和第j个关键词之间的关联权重。
Feature
文档评论(0)