信息熵在数据集分割中应用研究.docVIP

下载本文档

9
0
约3.35千字
约 8页
2018-08-18 发布于福建
举报
版权申诉

信息熵在数据集分割中应用研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

信息熵在数据集分割中应用研究

信息熵在数据集分割中的应用研究　　摘要：针对现行数据集分割方法中的不足，从信息学的角度出发，引用信息熵理论，提出了一种简单可行的数据集分割方法，即选择使数据子集的总体熵较小的分割方式，实验结果证明了这种方法的有效性。　　关键词：信息熵；数据集分割；入侵检测　　中图分类号：TP393文献标识码：A文章编号：1009-3044(2007)05-11193-02 　　　　1 引言　　对于异常检测，或更一般的，对于一个模式识别问题来说，任何一个检测模型或分类算法都有一定的时间和空间复杂度，如表1所示[1]：　　表1 分类算法与时间复杂度关系举例　　大部分算法在样本数(数据集数据)达到一定的规模之后，其时间复杂度都会达到一个相当高的水平，以至于令人无法接受。对空间复杂度的考察也有相似的结论。　　本文主要讨论如何通过数据集分割减少复杂度的问题。　　　　2 问题的提出　　所谓数据集分割，即在尽可能不影响分类效果的情况下，将一个具有较大规模的数据集通过某种分割规则分割为数个具有较小规模的不相交的子集。假设原数据集为?专，各个数据子集为θi，即：　　从目前来看，对于入侵检测这个特定问题来说，数据分割方法中的核心问题――分割规则的选择方法有：　　(1)随机分割法。从一个原始大数据集中随机选择一部分数据组成一个小数据集，重复该过程，直到全部数据被分割出来。　　(2)顺序分割法。从一个有n个数据的大数据集，按顺序将前m(mn)个数据抽取出来组成一个小数据集，重复该过程，直到原始数据集的所有数据被分割出来。　　(3)属性值分割法。将原始大数据集按某个(组)属性的取值进行分割。例如，数据集中某个属性的取值范围是1-10，那么就可以将数据集按照该属性的每种取值分割为十个子集。但选择哪个(组)属性进行分割最为合理，大都依据特定分类问题和个人经验。　　应该指出，由于没有理论上和具体方法上的指导，目前在数据集分割这个问题上，大家的处理较为混乱。从目前有关异常检测的文献资料所提供的数据来看，无论是采用随机分割法、顺序分割法还是简单的属性值分割法，数据集分割后往往或是使数据过于分散导致检测模型的检测效果不理想，或是由于对特定问题人为的介入过多导致分类模型的泛化性能不好。　　　　3 熵的引入　　熵[2]这个术语首次由Clausius于1864年首次引入热力学领域中，香农于1948年把这个概念引入信息理论中，因此又称为香农熵，它是信息的一种度量，其核心是把信息的度量看作是对事物不肯定性的度量。香农熵是与概率分布相联系的，但并不能通过它就可以确定信息的全部度量，事实上它仅仅是从“不确定性”(uncertainty)这个角度而作为度量基础的一个新的概念和度量被提出的。　　“不确定性”的另一种表述就是规律性(regularity)，而信息熵就是度量数据集的“不确定性”的函数，它当然也可以度量数据集的规律性。在建立检测模型时，我们可将整个训练数据集看作是信源，将每条记录看作是信源发出的信号，对信源规律性的度量就是对整个训练数据集的规律性的度量。对于异常检测来说，为了得到较好的检测率和较低的误报率，我们总是希望数据集应尽可能的有规律性，因为规律性强的数据集中含有较多的冗余信息并对将来的数据的分类提供更多的帮助。可想而知，若当前数据集的规律很强，其中的许多样本点是以大概率事件出现，那么在这个数据集上建立起来的检测模型的检测效果也应该很好；相反，在一个非常混乱的数据集上建立起来的检测模型，它的检测效果就不一定会理想。我们利用“信息熵”这个度量来考察待检测数据集的规律性。熵值越小，数据越集中，我们就可以称该数据集越规律，相反，熵值越大，我们就称该数据子集的规律性越弱。因此，在可以选择数据集分割的方式时，我们应选择使数据子集的总体熵较小(即各个数据子集的规律性较强)的分割方式。　　另外，在小熵值的数据集上建立起来的检测模型较使用大熵值的数据集建立起来的检测模型会更简单和高效。举例来说，直观上我们知道，如果一个训练数据集中的所有记录都相同(即这个数据记录出现的概率为1)，此时熵值为零。对于这样一个训练集，我们只需要一个分类规则就可以对待检测数据进行分类，且此时的分类效果为最优。相反，若训练数据集中含有较多不同的记录数据，此时熵值将较大，这时建立的检测模型也会较前者复杂，检测效果较前者也会有所下降。　　由此，我们根据信息熵来进行数据集分割的方法是：将训练数据集按某个属性的不同取值进行分割，并按下列公式计算分割后的总体信息熵Hs：　　其中，n为原始大数据集分割后的数据子集个数，ci是第i个数据子集中的数据个数，C是原始大数据集中的数据总数，Hi是第i个数据子集的熵值。我们的目标是使分割后的Hs较小。