- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第四章 文本信息的特征抽取目录 Contents文本特征的抽取概述语义特征的抽取3124特征子集的选择特征重构目录 Contents文本特征的抽取概述1语义特征的抽取2特征子集的选择3特征重构4文本特征的抽取概述概述文本特征抽取对文本内容的过滤和分类、聚类处理、自动摘要以及用户兴趣模式发现、知识发现等有关方面的研究都有非常重要的影响。通常根据某个特征评估函数计算各个特征的评分值,然后按评分值对这些特征进行排序,将若干个评分值最高的作为特征词,这就是特征抽取(Feature Selection)。 直接用分词算法和词频统计方法得到的特征项来表示文本向量中的各个维,将导致巨大的计算开销、处理过程的效率非常低下、损害分类、聚类算法的精确性。特征项的特性目前有关文本表示的研究主要集中于文本表示模型的选择和特征词选择算法的选取上。用于表示文本的基本单位通常称为文本的特征或特征项。特征项必须具备一定的特性:1)特征项要能够确实标识文本内容;2)特征项具有将目标文本与其他文本相区分的能力;3)特征项的个数不能太多;4)特征项分离要比较容易实现。目前大多数中文文本分类系统都采用词作为特征项,称作特征词。特征词作为文档的中间表示形式,用来实现文档与文档、文档与用户目标之间的相似度计算。特征提取的方式如果把所有的词都作为特征项,那么特征向量的维数将过于巨大,从而导致计算量太大。特征抽取的主要功能是在不损伤文本核心信息的情况下尽量减少要处理的单词数,以此来降低向量空间维数,从而简化计算,提高文本处理的速度和效率。特征选取的方式有4种:1)用映射或变换的方法把原始特征变换为较少的新特征;2)从原始特征中挑选出一些最具代表性的特征;3)根据专家的知识挑选最有影响的特征;4)用数学的方法进行选取,找出最具分类信息的特征,这种方法是一种比较精确的方法,人为因素的干扰较少,尤其适合于文本自动分类挖掘系统的应用。目录 Contents文本特征的抽取概述1语义特征的抽取2特征子集的选择3特征重构4语义特征的抽取词级别语义特征文本语义特征可分为如下类别:亚词级别、词级别、多词级别、语义级别和语用级别。其中应用最为广泛的是词级别。英文中利用空格与标点符号可将连续文本切分为词。通过简化,忽略词之间的逻辑语义关系以及词之间的顺序,文本可映射为一个词袋(bag-of-words)。词袋模型中只有词及其出现次数被保留下来。词级别语义特征特征词可进行计算的因素词频:文本内空中的中频词往往具有代表性,高频词区分能力较小,而低频词或者极少出现的词也常常可以做为关键特征词。所以词频是特征提取中必须考虑的重要因素,并且在不同方法中有不同的应用公式。词性:虚词,如感叹词、介词、连词等,对于标识文本的类别特性并没有贡献。因此,在提取文本特征时,首先考虑剔除虚词以减少噪音并降低文本分类的效率和准确率。在实词中,又以名词和动词对于文本的类别特性的表现力最强,所以可以只提取文本中的名词和动词作为文本的一级特征词。词级别语义特征特征词可进行计算的因素文档、词语长度:通常来说,长词汇含义更明确,更能反映文本主题,适合作为关键词,因此将包含在长词汇中低于一定过滤阈值的短词汇进行了过滤。过滤阈值指短词汇的权重和长词汇的权重的比的最大值。词语直径(Diameter):词语直径是指词语在文本中首次出现的位置和末次出现的位置之间的距离。词语直径是比较粗糙的度量特征。首次出现位置(First Location):关键词一般在文章中较早出现,因此出现位置靠前的候选词应该加大权重。首次出现位置和词语直径两个特征只选择一个使用就可以了。词语分布偏差(Deviation):词语分布偏差所考虑的是词语在文章中的统计分布。在整篇文章中分布均匀的词语通常是重要的词汇。亚词级别语义特征亚词级别(Sub-Word Level)也称为字素级别(Graphemic Level)。英文中比词级别更低的文字组成单位是字母,汉语中则是单字。n元模型n元模型将文本表示为重叠的n个连续字母(对应汉语情况为单字)的序列作为特征项。采用n元模型表示,当n小于单词长度时,错误拼写与正确拼写之间会有部分n元模型相同。n元模型在英文中复数、词性、词格、时态等变化中起到了与降低错误拼写影响的类似作用。在实际应用中大多取n为3或4(随着计算机硬件技术的增长,以及网络的发展对信息流通的促进,已经有n取更大数值的实际应用。)亚词级别语义特征多词级别语义特征多词级别(Multi-Word Level)指用多个词作为文本的特征项。应用名词短语作为特征项,这种方法也称作Syntactic Phrase Indexing。不考虑词性,只从统计角度根据词之间较高的同现频率(co-occur frequency)来选取特征项。采用名词短语或者同现高频词作为特征项,需要考
您可能关注的文档
- 信息技术基础-Office-2010实用案例教程教学课件-第3章职业生涯规划文档制作.pptx
- 信息检索与运用PPT课件(共8章)第三章-淡墨留香的知识典藏---纸质文献检索.pptx
- 信息内容安全管理及应用教学课件(共12章)第1章.pptx
- 信息内容安全管理及应用教学课件(共12章)第2章.pptx
- 信息内容安全管理及应用教学课件(共12章)第3章.pptx
- 信息内容安全管理及应用教学课件(共12章)第11章信息过滤.pptx
- 信息内容安全管理及应用教学课件(共12章)第12章.pptx
- 信息内容安全管理及应用教学课件(共12章)第八章基于深度学习的图像处理.pptx
- 信息内容安全管理及应用教学课件(共12章)第九章深度网络自然语言处理.pptx
- 信息内容安全管理及应用教学课件(共12章)第六章图像处理特征抽取.pptx
- 信息内容安全管理及应用教学课件(共12章)第五章音频数据处理.pptx
- 信息社会责任概念介绍.pptx
- 信息素养概念介绍.pptx
- 行业会计比较教学课件(共8单元)项目1-行业、行业会计及比较.pptx
- 行业会计比较教学课件(共8单元)项目2-农业企业会计.pptx
- 行业会计比较教学课件(共8单元)项目3-商品流通企业.pptx
- 行业会计比较教学课件(共8单元)项目4-旅游饮食服务企业会计.pptx
- 行业会计比较教学课件(共8单元)项目5-交通运输企业会计.pptx
- 行业会计比较教学课件(共8单元)项目6-建筑安装企业会计.pptx
- 行业会计比较教学课件(共8单元)项目7-房地产开发企业会计.pptx
文档评论(0)