第9章节根据内容检索.ppt

下载文档

2
0
约5.24千字
约 38页
2017-04-21 发布于上海
举报
版权申诉
保障服务

第9章节根据内容检索.ppt

1、本文档共38页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第9章节根据内容检索

9.3 文本检索;因此，在提出一个包含其中之一的查询，那么应该考虑包含另一个的文档。解决方法是：预先创建一个把语义相关词条连接在一起的知识库(同义词典或本体集)。然而，这样的知识库存在固有的主观性，因它取决于从何种角度来把词条和语义内容联系起来。隐含语义索引(latent semantic indexing)(LSI)—一种可选的有趣又有价值的方法。该方法不是仅使用词条出现信息，而是从文本中提取出隐藏的语义结构信息。;实际上，LSI采用T维词条空间中前k个主成分来近似原始的T维词条空间，使用N×T的文档-词条来估计这个方向。主成分方法的直观解释是，由原始词条的加权组合所构成的单个向量可以非常好的近似由大得多的向量集合所起的效果。于是可以把原来的N×T大小的文档-词条矩阵简化为N×k的矩阵(kT)，对于固定的查全率，和前面讨论的向量空间方法相比，LSI可以提高查准率。;对表9-2中的矩阵M计算奇异分解式(SVD)。;目标是，找一个分解式M=USVT。式中U是一个10×6的矩阵，它的每一行是相对特定文档的权向量，S是每个主成分方向特征值的6×6对角阵， 6×6的矩阵VT的各列提供了数据的新共轭基，被称为主成分方向。 S矩阵的对角线元素是(协方差矩阵对应…): λ1,…, λn={77.4,69.5,22.9,13.5,12.1,4.8} 可见，前两个主成分捕捉了数据中的主要变化，和直觉一致。当使用两个主成分时，那么二维表征所保留的变化比例0.925，信息丢失仅7.5%。;如果我们在新的二维主成分空间来表示文档，那么每篇文档的系数对应于U矩阵的前两列(两个主成分对应的特征向量，即新的文档权值)：;这两列可看作新的伪词条，其作用相当于原来6个词条的线性组合。看一下前两个主成分方向可以得到的信息(新共轭基)： V1=(0.74,0.49,0.27,0.28,0.18,0.19) V2=(-0.28,-0.24,-0.12,0.74,0.37,0.31) 这两个方向是原来6维词条空间中数据最分散(具有最大方差)的方向。每方向更突出前两个词条(查询,SQL)：实际上这是描述和数据库有关文档的方向。;第二方向突出了后三个词条—回归、似然和线性，这是描述和回归有关文档的方向。图9-4以图形方式说明了这一点(将上面数据用图表示)。;当把文档投影到由前两个主成分方向所决定的平面量，两个不同组的文档分布在两个不同的方向上。注意文档2几乎落在文档1上，使其有点模糊。文档5和文档10的词条向量最大，因此离原最远。从图可看出，文档间的角度差异显然是相似性的一个有用指标，因为回归和数据库文档在平面上是围绕两个不同的角度聚成簇的。主成分方法的应用例子：考虑一个新的文档D1，词条“查询”在该文档;中出现50次，另一个文档D2，包含词条“SQL”50次，两且两篇文档都不包含其他的词条。如果直接使用关键字表示，这两个文档不会被认为是相似的，因为它们没有包含相同的词条。然而，如果使用两个主成分词条来表示这两篇文档，并把它们投影到这个空间中，那么正如图9-3所示，二者都被投影到“数据库”方向，尽管它们都仅包含和数据库有关的三个词条中的一个。;从计算的角度来看，直接计算主成分向量(例如求解相关矩阵或协方差矩阵的特征值)通常要么是计算上不可行，要么是数值上不稳定。实践中，可以使用特别适合高维稀疏矩阵的SVD技术来估计PCA向量。;四、文档和文本分类上面的讨论可以看出使用词条向量来表示文档为文档分类提供了一种自然框架。有了这一框架对于预先有标签的文档我们可以使用有指导分类技术，对于没有标签的文档我们可以使用无指导学习(聚类)框架。典型词条向量的维数都是非常高的，基于这一事实，高维空间中的准确性和高效性通常是选择分类器的首要标准。;对于文档表示来说，像一阶贝叶斯分类器这样的分类模型或者是加权线性组合可工作得很好。在文档分类这一领域还有很多有趣的问题可以探讨，例如认为每篇文档属于多个主题(类)而不是仅属于某个类是有意义的。因此在分类时不再限于各个类是相互排斥的这一通用框架。一种简单的方法是为每个类分别训练一个二值分类器，此方法仅当类别总数较少时是可行的。;9.4 对个人偏好建模;从根本上讲相关性是以用户为中心的，也就是，如果用户可以(理论上)看到所有的文档，那么原则上他可以把所有文档分成两个集合，相关的R和不相关的NR。如果给定了这两个集合，那么可以证明最佳查询(利用向量模型)为：其中D代表文档的词条向量表示，它的标签(用户作出的)是已知的。;在实际应用中，一般一个用户不会把数据库中所有文档都标上分类标签。相反，用户是从一个特定查询Qcurrent开始的，可以把这个查询看作是相对Qoptimal次优的。算法使用这个初始查询返回文档的一个较小子集