基于检测熵的自然语言隐写术检测算法.docVIP

下载本文档

0
0
约2.52千字
约 5页
2016-09-12 发布于北京
举报
版权申诉

基于检测熵的自然语言隐写术检测算法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于检测熵的自然语言隐写术检测算法.doc

基于检测熵的自然语言隐写术检测算法　　摘要文本信息隐藏就是把要隐藏的信息隐藏到文本文件中，可见它的隐藏载体是文本文件。文本信息隐藏的理论依据是利用文本文件在语法和语义以及格式和编码等其它方面出现的多余信息。本文提出了检测熵的定义，并介绍了基于检测熵的自然语言隐写术检测算法，该算法对于较小的文本文件进行检测分析的效果比较明显。　　关键词文本；自然语言；检测熵　　中图分类号TP39 文献标识码A 文章编号 1674-6708（2014）119-0240-02 　　0 引言　　文本信息隐藏的研究分析才刚刚有了一定程度的发展。以目前的情况来看，文本信息隐藏的研究分析在某些方面已经取得了一些成果，例如基于自然语言和编码以及文本格式的信息隐藏，对于它们的检测分析研究者们已经进行过一些深入的研究，并且公开发表了一些可行的算法。根据这些检测算法，研究者们又做出了一些相应的检测分析工具，但是上面所说的这些检测分析算法，最大的缺点在于它们都是和隐藏算法相关的，很难甚至不能把不同类别的隐藏文本在一起进行检测分析，也就是盲检测分析。　　根据上面提出的问题，我们设计了文本信息隐藏检测分析的实现思路，并且由这个思路，我们确定了盲检测分析系统应该具有的一些基本特征：可学习性和可扩展性以及自适应性和可反馈性。根据这个设计思路，我们提出了基于检测熵的自然语言隐写术的盲检测分析算法。　　1 基本概念与原理　　1.1 研究内容　　1）我们学习并深入研究了在日常生活中经常使用的语言隐写术检测分析思想，根据此思想，我们提出了相应的检测分析算法，并进行了相关的实验验证；　　2）我们提出并实现了基于检测熵的自然语言隐写术检测分析算法，该算法实现了盲检测或近似盲检测。　　1.2 基本概念　　基于以上研究内容，本文引入了以下五个相关概念：　　1）词频分　　词频分的作用是描述词语在待处理文本段中的出现情况。假设待处理文本段中所有词语的出现次数为，其中有一个词语为，出现次，那么我们定义词的词频分为：　　其中表示词的第次出现的出现效果，而的值可以根据具体情况设定。这里假设，得到：　　这样做的好处是，即使是较小的词频分布变化，也能引起较大的词频分变化，从而提高检测分析的灵敏度。　　2）检测信息量　　可以看作是词的出现概率，我们可以定义一个变量，主要用于检测分析，称之为检测信息量：　　3）检测熵　　通过上面对和的定义，我们可以进一步定义分类特征。假设待处理文本包含了个不同的单词，可以定义检测熵：　　进而可以定义检测信息方差：　　那么统计量和可以作为检测分析过程中的分类特征向量。　　4）自然语言隐写术　　自然语言隐写术判断一个文本是否隐写了隐秘信息，一般的方法是对这个文本的内容进行分析，如果这个文本隐写了隐秘信息，那么就进行深入地分析，从而得到与之有关的其它信息，最后综合所获得的所有信息，得到所隐写的隐秘信息[2]。　　5）盲检测　　盲检测是第三方在对隐写嵌入算法等相关知识毫不知情的条件下，对隐写进行检测。　　1.3 原理　　载密文本和正常文本在词频分布方面经常存在很大的差别，而这正是基于检测熵的自然语言隐写术检测算法的主要思想依据，我们定义的检测熵恰恰可以放大载密文本和正常文本在这方面的差别，从而可以让我们更加容易地辨别出载密文本和正常文本。　　在基于检测熵的自然语言隐写术检测算法中，我们可以通过以下步骤来计算分类特征量和。　　第一步、解析待检测文本段，从而得到一个没有相同单词的集合，然后再统计该集合中每一个单词出现的频数，接着利用式2来计算每一个不相同单词的词频分。　　第二步、根据第一步计算得到的词频分，再利用式3来对每一个不同单词计算检测信息量。　　第三步、利用式4和式5计算和[3]。　　经过以上三步的处理过程，可以获得检测熵和检测信息方差，然后就可以利用进行检测和分析。的工作过程包含两个模块：训练模块和测试模块。无论是训练文本还是测试文本都要通过以上三步的处理过程，从而可以提取出相对应的检测熵和检测信息方差。　　具体的检测步骤如下：　　步骤1：准备训练集和测试集；　　步骤2：计算；　　步骤3：计算；　　步骤4：计算和；　　步骤5：用类型标签和分类特征数据训练分类器；　　步骤6：用分类器测试待测试数据；　　步骤7：得出分析结果。　　2 实验及结果　　基于语法的语言隐写术，由于当前文本生成技术不成熟，只能生成满足语法要求，而语义上可能并不完整的载密文本。这种方法生成的载密文本与正常文本相比，一定会在词语的频率和词语的分布以及词语的关联等其它方面的统计特征存在很大的差别，因此，寻找能够较好区分