词袋模型的理解-2014-05-06.pptVIP

下载本文档

1
0
约2.21千字
约 17页
2025-06-10 发布于广西
举报
版权申诉

词袋模型的理解-2014-05-06.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

“词袋模型”

的理解;目录;一、bag-of-words简介;Boblikestoplaybasketball,Jimlikestoo.

Bobalsolikestoplayfootballgames.

基于这两个文本文档，构造一个词表：

Vocabulary=

{1.“Bob”,2.“like”,3.“to”,4.“play”,5.“basketball”,6.“also”,7.“football”,8.“games”,9.“Jim”,10.“too”}。

这个词表一共包含10个不同的单词，利用词表的索引号，上面两个文档可以用一个10维向量表示(向量中元素为词表中单词在文档中出现的频率)：

D=[1,2,3,4,5,6,7,8,9,10]

[1,2,1,1,1,0,0,0,1,1]

[1,1,1,1,0,1,1,1,0,0];以上向量也可以用单词的直方图表示：词表就相当于直方图的基，新来的要表述的文档向这个基上映射

并不是所有的单词都用来构建词表：

相似的词：相似的单词用一个单词表示。例如“walk,walking,walks”都用“walk”表示。(聚类问题)

禁用的词：像a,an,the等冠词在各个文档中出现的频率都很高，不容易被区分，这类单词在建立词表的时候不被使用。(TF-IDF)

;TF-IDF〔termfrequency–inversedocumentfrequency〕是一种统计方法，用以评估一字词对于一个文件集中的其中一份文件的重要程度。

主要思想是：如果某个单词在一篇文章中出现的频率〔TF〕高，并且在其他文章中很少出现〔IDF〕，那么认为这个单词具有很好的类别区分能力，适合用来分类。;bag-of-words实现步骤;

应用：

假设一个巨大的文档集合，里面一共有M个文档，而文档里面的所有单词提取出来后，一起构成一个包含N个单词的词表，利用Bag-of-words模型，每个文档都可以被表示成为一个N维向量，计算机非常擅长于处理数值向量。这样，就可以利用计算机来完成海量文档的分类过程。

;二、bag-of-visual-words简介;由于图像中的单词不像文本文档中的那样是现成的，我们需要首先从图像中提取出相互独立的视觉单词，这通常需要经过三个步骤：

〔1〕特征检测〔2〕特征表示〔3〕词汇表的生成

图2从图像中提取出相互独立的视觉单词;SIFT算法是提取图像中局部不变特征的应用最广泛的算法，因此可以用SIFT算法从图像中提取不变特征点，作为视觉单词，并构造词汇表，用词汇表中的单???表示一幅图像。

以下举例例讲解一下bag-of-visual-words模型的建立步骤。;利用SIFT算法，从每类图像中提取视觉单词，将所有的视觉单词集合在一起。

以SIFT128维为例：假设现在有3张训练图片，对每一张训练图片都提取SIFT的128维特征，那么最终可以得到M=N1+N2+N3个128维的特征，Ni代表第i张图特征点的个数。

利用K-Means算法构造词汇表-vocabulary。

K-Means算法是一种基于样本间相似性度量的间接聚类方法，此算法以K为参数，把M个对象分为K个簇，以使簇内具有较高的相似度，而簇间相似度较低。

SIFT提取的视觉单词向量，根据距离的远近，可以利用K-Means算法将词义相近的词集合并，作为词汇表中的根底词汇，假定我们将K设为4，那么词汇表的构造过程如图4所示：;

图4：K-means算法：将M个特征向量聚类为4个

经过聚类后，词汇表中单词数为4个。;利用视觉词袋量化图像特征，利用词频表示图像。

利用SIFT算法，可以从每幅图像中提取很多个特征点，这些特征点都可以用词汇表中的单词近似代替，通过统计词汇表中每个单词在图像中出现的次数，可以将图像表示成为一个K=4维数值向量：

人脸：[3,30,3,20]自行车：[20,3,3,2]吉他：[8,12,32,7]

每幅图的直方图表示如下：

;总结一下这个过程就是：

针对“人脸、自行车和吉他”这三个文档，抽取出一局部特征，构造一个词表，词表中包含4个视觉单词，即

vocabulary={1:”自行车”2.“人脸”3.“吉他”4.“人脸类”}，

最终“人脸、自行车和吉他”这三个文档皆可以用一个4维向量表示，最后根据三个文档相应局部出现的次数画成对应的直方图。

实际应用中，为了到达较好的效果，单词表中的词汇数量K往往非常庞大，并且目标类数目越多，对应的K值也越大，一

您可能关注的文档

文档评论（0）

199****8042 + 关注: 实名认证

文档贡献者

相信自己，相信明天

咨询Ta 进入空间

1亿VIP精品文档

更多 >

词袋模型的理解-2014-05-06.pptVIP