基于PCA―LDA和KNN―SMO的数据碎片分类识别算法.docVIP

下载本文档

11
0
约3.89千字
约 8页
2018-08-18 发布于湖北
举报
版权申诉

基于PCA―LDA和KNN―SMO的数据碎片分类识别算法.doc

1、本文档共8页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于PCA―LDA和KNN―SMO的数据碎片分类识别算法　　摘要：在计算机取证领域，数据碎片的取证分析已成为获取数字证据的一种重要手段。本文针对取证中数据碎片的取证问题提出了一种新的基于内容特征的数据碎片类型识别算法，该方法首先对数据碎片进行分块主成分分析PCA后，对PCA特征向量进行线性鉴别分析LDA获取组合特征向量，然后利用K最邻近KNN算法和序列最小优化SMO算法组成融合分类器，运用获取的组合特征向量对数据碎片进行分类识别。实验表明，该算法与其他相关算法相比，具有较高的识别准确率和识别速率，取得了良好的识别效果。　　关键词：数据碎片；计算机取证；PCA-LDA；KNN-SMO 　　中图分类号：TP393.08 　　文献标识码：A 　　DOI： 10.3969/j.issn.1003-6970.2015.07.005 　　0 引言　　在计算机取证中，取证人员常会遇到数据碎片问题，由于数据碎片位于存储介质的底层，且其元信息遭到丢失或损坏，一般的基于扩展名和魔术的识别方法对其失效，不能够对数据碎片类型进行正确的识别，从而对后续的数据恢复等工作造成困难。因此，如何对当前已知的数据类型的数据碎片进行自动化分析并提取其特征，用于对未知类型的数据块（可能为整个文件，也可能为数据碎片）的分类及检测，已经成为目前国内外研究的热点和难点问题之一，亟需在数据碎片类型识别的精度及速度上有所突破。　　在现有的数据碎片分类识别算法中，主要方法有基于字节频率的分布特征识别法，基于统计量特征识别法等。基于字节频率的分布特征识别法基本思想是通过统计数据碎片中字节的频率分布（Byte Fre-quency Distribution，BFD）直方图作为特征向量进行识别，Mason等第一个提出了基于BFD的识别方法，但该算法的识别精度很低。Li等利用多图心即多个特征向量来表征一种数据碎片类型方法较好的提高了识别精度，但作者未利用文件中间的数据碎片进行测试，而是从固定位置的文件头开始，存在局限性。Martin等在考虑BFD特征的基础上，添加了部分字节之间的顺序利用字节间的变化率来进行分类识别，但识别效果并不理想。Xu等通过离散余弦变换（Discrete Cosine Transform，DCT）利用中低频系数和BFD作为特征向量进行识别很好地提高了识别精度。基于统计量特征的识别方法的基本思想是利用数据碎片的统计量（如均值、标准差、峰值等）进行分析识别。Robert等首先提出了基于统计特征的数据碎片识别方法，利用不同文件类型的均值、标准差的图线不同进行区分，但是后期识别工作需要人工观测。Sarah等将滑动窗口思想引入到统计分析中，以及采用二次分析取得了较好的分类效果。William等利用16种统计量进行分析识别，但其实验采用的数据集只有四种类型，较为局限。曹鼎等将定长和变长元组运用于统计特征中，有效的提高了识别的准确率，但是其实验数据集也只有四种类型，实验数据集过小。　　以上数据碎片类型的识别方法中，由于在特征选取上对数据碎片的描述不够，导致不能够很好识别碎片类型，此外很多作者实验是局限在较小的私有数据集上进行，实验效果的有效性难以保证。　　针对上述问题，本文提出了基于PCA-LDA和KNN-SMO的数据碎片分类识别算法，对数据碎片先后采用PCA和LDA两种变换方法，获得组合特征向量，接着利用KNN和SMO组成的融合分类器进行分类识别。通过PCA-LDA变换能够充分提取出数据碎片的主要特征，且利用KNN和SMO融合的分类器，一方面利用了KNN快速分类的能力，另一方面利用了SMO在克服小样本问题上的优势，从而提高了数据碎片类型的识别精度与速度。并且实验中采用数据量大的公开数据集进行测试，保证了实验结果的有效性。　　1 PCA-LDA组合特征的提取　　PCA即主成分分析技术，其旨在利用降维的思想，把多指标转化为少数几个综合指标。　　LDA即线性鉴别分析，其基本思想是将高维的模式样本投影到最佳鉴别矢量空间，以达到抽取分类信息和压缩特征空间维数的效果。由于LDA方法采用了使得样本能够正确分类识别的先验知识，即寻找最优投影方向，使得投影后向量的类间离散度矩阵和类内离散度矩阵的比率最大化，能够提高识别率。　　本文算法中关于数据碎片PCA-LDA组合特征向量的提取方法如下：　　（1）将数据碎片分块后，利用主PCA在投影方向上提取特征向量，首先按照公式（1）计算样本协方差矩　　其中，即为样本均值。　　（2）选取S中前f个最大特征值组成特征向量U，如式（2）所示：　　（3）计算f维特征空间类间离散度，如式（3）所示：　　其中P（i）为先验概率，其中u为所有样本向量的均值向量，ui为第i个样本类别的均值向量。