章节修订历史htm系统的编码数据编码过程-numenta.pdfVIP

  • 9
  • 0
  • 约2.21万字
  • 约 11页
  • 2017-11-24 发布于天津
  • 举报

章节修订历史htm系统的编码数据编码过程-numenta.pdf

章节修订历史htm系统的编码数据编码过程-numenta

章节修订历史 本表格记录修订版本之间的重大改动。类似简单说明或者变更格式这样的细微修改并不会加以记录。 版本号 改动 日期 改动内容 负责人 0.4 Initial release S. Purdy HTM 系统的编码数据 本章 ,我们会介绍如何将数据编码为系数分布表征 (SDR),从而用于 HTM 系统。我们会讲解现有的几种编码器, 1 这些都可以通过访问开源项目 NuPIC 获取 ,还会对创建面向新的数据类型的编码器的需求进行论述。 什么是编码器? 层次时序记忆 (HTM)提供 了一个灵活和贴近生物学的框架,用于解决涉及众多数据类型的预测、分类和异常检 测问题【Hawkins and Ahmad, 2015】。HTM 系统要求输入数据的格式是稀疏分布表征 (SDRs)【Ahmad and Hawkins, 2016】。SDR 与标准的计算机表征形式很不一样 ,比如面向文本的 ASCII 码 ,含义是直接编码到表征里面的。一条 SDR 由大量的比特组成,其中大部分是 0 而小部分是 1。每个比特都携带一些语义含义 ,所以如果两条 SDR 在相同位置都 有不少的置 1 比特,那么这两条 SDR 就有相似的含义。 可以转化成 SDR 的任何数据都可以用于采用 HTM 系统的各类应用程序 。所以,运用 HTM 系统的第一步是通过我 们称之为“编码器”的东西把数据源转化成 SDR 。编码器把数据的原生格式转化成可以输入到 HTM 系统的 SDR 。对应给 定的输入数据,编码器负责确定哪些输出比特应该是 1,哪些应该是 0,从而捕获数据的重要语义特征 。相似的输入信 息应该产生彼此高度重叠的 SDR 。 编码过程 编码过程类似于人类和其他动物的感觉器官的功能。比如,耳蜗是一种专门的结构,它将环境中声音的频率和幅度 转换成稀疏的活跃神经元 【Webster et al, 1992; Schuknecht, 1974】。这个过程 (图 1)的基本机制是通过一组排列成 多排的内毛细胞构成的 ,每排内毛细胞对不同的声音频率敏感。当出现合适的声音频率时,内毛细胞会刺激神经元,将 信号发送到大脑。 以这种方式触发的一组神经元把这些声音编码组合成稀疏分布表征。 图 1 耳蜗内毛细胞基于声音的频率刺激一组神经元。 1 耳蜗编码过程的一个重要方面是,每个内毛细胞都能响应一系列频率,频率范围与其他邻近 内毛细胞的相互重叠。 这种特性通过冗余防止某些毛细胞受损,但是也意味着某个特定频率会刺激多个细胞。两个相似频率的声音刺激的内毛 细胞会有一些重叠。表征之间的重叠表现了所捕获的数据之间的语义相似程度。这也意味着语义是分布在一组活跃细胞 的,使得表征能够容忍噪声和子采样。 不同动物的耳蜗响应不同频率的声音,它们使用不同的分辨率来区分声音频率之间的差异。虽然频率很高的声音对 某些动物来说很重要,但对其他动物而言可能没什么用。同样,编码器的设计取决于数据的类型。编码器必须捕获那些 对应用程序重要的数据的语义特征 。在 NuPIC 项目 中的很多编码器的实现里面,设定了可以允许它们为广泛的应用程 序工作的范围或者分辨率参数。 在编码数据时,有一些重要的方面需要考虑: 1. 语义相似的数据应该产生活跃比特彼此重叠的 SDR 2. 相同的输入数据应该总是产生相同的输出结果 3. 对所有的输入信息 ,输出信息应该有相同的维度(比特总数) 4. 对所有的输入信息,输出信息应该有相似的稀疏度,并且有足够的置 1 比特处理噪声和子采样 在接下来的几节 ,我们会细致地考究每个特性,然后介绍如何对几种不同类型的数据编码。要注意,已经有一些现 成的 SDR 编码器了,大多数人不需要自己去创造一个。如果有 自行创造编码器的需要,应该仔细考虑上面的标准。 1)语义相似的数据应该产生活跃比特彼此重叠的 SDR 要创造一个有效的编码器,你必须理解数据中有利于相似性的方面。在上面的耳蜗例子中,编码器的设计意图是使 音高相近的声音有相似的表现,但是并没有考虑声音的响度,因为这个需要不同的方式。 设计编码器的第一步是确定所要捕获的

文档评论(0)

1亿VIP精品文档

相关文档