- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第九章 根据内容检索2
和二维图像数据相比,可以把序列数据看作是一维的。时间序列数据是相对时间测量出来的一系列观察结果,因此可以用时间变量t来索引观察值。 序列数据的概念比时间序列数据的概念更广,因为序列数据不一定是时间的函数。例如,在计算生物学中,蛋白质是以其在蛋白质序列中的顺序位置来索引的。 一、时间序列数据的全局模型 传统的时间序列建模技术(比如统计方法)主要是建立在全局线性模型基础上的,典型的例子是Box-Jenkins自回归模型族,该方法把当前值y(t)模拟成过去值y(t-k)的加权线性组合,再加上一个额外的噪声项: 式中αi是加权系数,e(t)是时间t的噪声(通常被假定为均值为零的高斯函数)。 Box-Jenkins方法的一个重要贡献是,如果在时间序列中存在可识别的系统性非平稳分量(比如某种趋势),那么很多情况下可以把这个不平稳分量删除使这个时间序列变成平稳的形式。例如,像国内生产总值和道琼斯指数这样的经济指标中包含着固有的上升趋势(总体而言),通常要在建模前将这种趋势删除。 对于非平稳性比较复杂的情况,另一种有用方法是假定这个信号是相对时间局部平稳的。 非线性的全局模型对上面公式进行了推广,比如可以允许y(t)非线性地依赖过去值: 其中g(.)是非线性的。 从数据挖掘的角度来看,如果我们假定这样的全局模型充分地描述了潜在的时间序列,那么我们就可以使用模型参数(比如上面的各个权)作为表示数据的基础,而不使用原始数据本身。 通过把时间序列表示为参数向量,把序列问题转化为本章前面所介绍的文本和图像的方法,便可以在参数向量空间中定义相似性尺度、在这个空间中定义根据内容检索的查询。 二、时间序列的结构和形状 考虑一个实数值时间序列的子序列Q=[q(t),…q(t+m)],和一个长得多的归档时间序列X=[x(t),…,x(T)],前者称为查询序列。 我们的目标是在X中找到和Q最相似的一个子序列。 现实情况下,X可能是由许多单个的时间序列组成的,但是为了简单,我们假定它们已经被合成一条长的序列。并且假定X和Q都是使用相同采用时间间隔测量的。 上一节所讲的一般方法仅描述一个时间序列的全局特征,根本没有提供对局部形状的描述,比如峰值等。通常,全局模型平均了这些局部的结构特征。然而,对于很多时间序列来说,用结构特征来描述它们会更自然。 两种查询方法: ◆第一种:在整个X数据中序列化在扫描查询Q,顺着X每次把查询Q移动一个时间点,同时计算出每个时间点的距离尺度。该方法的主要特点是,①开销大。②其焦点集中在低层次的数据采样点,而不是高层次的结构特征,比如峰值、高原、走势和波谷等。③直接计算欧氏距离也对查询Q和数据X中的微小岐变异常敏感。 ◆第二种:先局部化地估计查询Q和归档X的基于形状特征,然后在较高层次上进行匹配。其特点是,①具有计算优势,因为抽象实质上是一种压缩数据,可以把信号的很多无关细节都忽略掉。②它可以以一种适合于人类解释的形式提取结构化的信息。 第二种技术的一个典型实例是用分段线性化的片段来逼近信号。然后把分成段的序列表示为局部参数化的曲线列表,而后便可以直接根据参数描述计算结构特征。可以使用概率模型把期望的形状和变化性按这些特征进 行参数化。可以把在数据档案X中匹配Q的问题表达为这样的一个搜索问题:给定Q的概率模型,在X中搜索局部区域使这个区域中数据的似然最大化。 第二种技术对于用局部统计模型不易处理的信号类型这种表示特别有用,比如包含暂态、阶跃函数、趋势和其他各种类似某一形状模式的不稳定信号。 就业工场数据中心 9.3 文本检索 三、隐含语义索引 上面所介绍的都是将文档表示为T维词条权向量的。但用户可能提出的查询中的词条不在用在索引文档的词条中。 例如,从词条相似性的角度来看,词条“数据挖掘”和“知识发现”设有什么直接的共同点。然而,从语义角度来看,这两个词条有很大的相同点。 因此,在提出一个包含其中之一的查询,那么应该考虑包含另一个的文档。解决方法是:预先创建一个把语义相关词条连接在一起的知识库(同义词典或本体集)。然而,这样的知识库存在固有的主观性,因它取决于从何种角度来把词条和语义内容联系起来。 隐含语义索引(latent semantic indexing)(LSI)—一种可选的有趣又有价值的方法。该方法不是仅使用词条出现信息,而是从文本中提取出隐藏的语义结构信息。 实际上,LSI采用T维词条空间中前k个主成分来近似原始的T维词条空间,使用N×T的文档-词条来估计这个方向。 主成分方法的直观解释是,由原始词条的加权组合所构成的单个向量可以非常好的近似由大得多的向量集合所起的效果。于是可以把原来的N×T大小的文档-词条矩阵简化为N×k的矩阵(kT), 对于固定的查全率,和前面讨论的向量空间方法相比,LSI可以提高查准率。 对
文档评论(0)