章节修订历史htm系统的编码数据编码过程-numenta.pdfVIP

下载本文档

9
0
约2.21万字
约 11页
2017-11-24 发布于天津
举报

章节修订历史htm系统的编码数据编码过程-numenta.pdf

章节修订历史htm系统的编码数据编码过程-numenta

章节修订历史本表格记录修订版本之间的重大改动。类似简单说明或者变更格式这样的细微修改并不会加以记录。版本号改动日期改动内容负责人 0.4 Initial release S. Purdy HTM 系统的编码数据本章，我们会介绍如何将数据编码为系数分布表征（SDR），从而用于 HTM 系统。我们会讲解现有的几种编码器， 1 这些都可以通过访问开源项目 NuPIC 获取，还会对创建面向新的数据类型的编码器的需求进行论述。什么是编码器? 层次时序记忆（HTM）提供了一个灵活和贴近生物学的框架，用于解决涉及众多数据类型的预测、分类和异常检测问题【Hawkins and Ahmad, 2015】。HTM 系统要求输入数据的格式是稀疏分布表征（SDRs）【Ahmad and Hawkins, 2016】。SDR 与标准的计算机表征形式很不一样，比如面向文本的 ASCII 码，含义是直接编码到表征里面的。一条 SDR 由大量的比特组成，其中大部分是 0 而小部分是 1。每个比特都携带一些语义含义，所以如果两条 SDR 在相同位置都有不少的置 1 比特，那么这两条 SDR 就有相似的含义。可以转化成 SDR 的任何数据都可以用于采用 HTM 系统的各类应用程序。所以，运用 HTM 系统的第一步是通过我们称之为“编码器”的东西把数据源转化成 SDR 。编码器把数据的原生格式转化成可以输入到 HTM 系统的 SDR 。对应给定的输入数据，编码器负责确定哪些输出比特应该是 1，哪些应该是 0，从而捕获数据的重要语义特征。相似的输入信息应该产生彼此高度重叠的 SDR 。编码过程编码过程类似于人类和其他动物的感觉器官的功能。比如，耳蜗是一种专门的结构，它将环境中声音的频率和幅度转换成稀疏的活跃神经元【Webster et al, 1992; Schuknecht, 1974】。这个过程（图 1）的基本机制是通过一组排列成多排的内毛细胞构成的，每排内毛细胞对不同的声音频率敏感。当出现合适的声音频率时，内毛细胞会刺激神经元，将信号发送到大脑。以这种方式触发的一组神经元把这些声音编码组合成稀疏分布表征。图 1 耳蜗内毛细胞基于声音的频率刺激一组神经元。 1 耳蜗编码过程的一个重要方面是，每个内毛细胞都能响应一系列频率，频率范围与其他邻近内毛细胞的相互重叠。这种特性通过冗余防止某些毛细胞受损，但是也意味着某个特定频率会刺激多个细胞。两个相似频率的声音刺激的内毛细胞会有一些重叠。表征之间的重叠表现了所捕获的数据之间的语义相似程度。这也意味着语义是分布在一组活跃细胞的，使得表征能够容忍噪声和子采样。不同动物的耳蜗响应不同频率的声音，它们使用不同的分辨率来区分声音频率之间的差异。虽然频率很高的声音对某些动物来说很重要，但对其他动物而言可能没什么用。同样，编码器的设计取决于数据的类型。编码器必须捕获那些对应用程序重要的数据的语义特征。在 NuPIC 项目中的很多编码器的实现里面，设定了可以允许它们为广泛的应用程序工作的范围或者分辨率参数。在编码数据时，有一些重要的方面需要考虑： 1. 语义相似的数据应该产生活跃比特彼此重叠的 SDR 2. 相同的输入数据应该总是产生相同的输出结果 3. 对所有的输入信息，输出信息应该有相同的维度（比特总数） 4. 对所有的输入信息，输出信息应该有相似的稀疏度，并且有足够的置 1 比特处理噪声和子采样在接下来的几节，我们会细致地考究每个特性，然后介绍如何对几种不同类型的数据编码。要注意，已经有一些现成的 SDR 编码器了，大多数人不需要自己去创造一个。如果有自行创造编码器的需要，应该仔细考虑上面的标准。 1）语义相似的数据应该产生活跃比特彼此重叠的 SDR 要创造一个有效的编码器，你必须理解数据中有利于相似性的方面。在上面的耳蜗例子中，编码器的设计意图是使音高相近的声音有相似的表现，但是并没有考虑声音的响度，因为这个需要不同的方式。设计编码器的第一步是确定所要捕获的

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

章节修订历史htm系统的编码数据编码过程-numenta.pdfVIP