基于群朴素贝叶斯分类.docVIP

下载本文档

6
0
约3.84千字
约 10页
2018-08-30 发布于福建
举报
版权申诉

基于群朴素贝叶斯分类.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于群朴素贝叶斯分类

基于群朴素贝叶斯分类　　摘要：本文对群的朴素贝叶斯分类进行了简要论述。　　关键词：对称性朴素贝叶斯分类　　　　1 概述　　对称性使人们在观察自然和认识自然过程中产生的一种观念，自然界千变万化的运动，从一个侧面来说，往往显示出各式各样的对称样，同时又通过这些对称性的演化和残缺来反映出运动演化的特点。对称性的描述定义有很多种，从物理学出发，对称性可以概括为：如果某一现象（或系统）在某一变换下不改变，则说该现象（或系统）具有该变换所对应的对称性。　　每一种对称性都和某种特定的变换相联系，对称性的千差万别也就集中在与之相联系的各种变换上，因此可以根据变换所涉及的对象以及变换的性质对对称性进行研究与分类。对于对称性的描述与研究最有效的数学工具是群论与群表示论。物理学中对称性研究相当多的部分运用群论来分析，概括和研究物理学的规律。例如，晶体中的对称性，根据对称性的结构对晶体进行分类，以及利用群论结果确定晶体中电子的波函数。另外一方面，根据群论的抽象机制对宇宙中粒子的运动行为作出预测。　　统计学家运用对称性对数据进行分析，并且专门开发了一个研究方向：数据分析的对称性研究。对称性研究主要运用统计与代数分析复杂的结构性数据，例如DNA分子结构，Sloan字体等具有对称性的数据。这些数据(x)由一个有限集合V作为索引或者标注，有限集合V具有可以有群刻画的对称性，或者V可以构成一个群。简而言之，对称性研究利用具有对称性的数据索引方便的对数据{x（s），s∈V}进行分类，解释，统计性分析。目前对称性研究主要用于短核苷酸序列索引的数据分析，由Sloan字体的对称性索引的对比敏感度与熵的分析，地质成分熵的分解，初等平面图像对称索引的数据的分类与统计分析等。　　既然物理学家与统计学家能够运用群论认识自然界数据的规律，那么我们从数据分析的角度看，利用数据中的对称性，结合机器学习方法，对数据进行分析，其目的就是揭示这些数据具有的规律，从而帮助用户提供解释的依据。对于具有复杂结构的某些数据，我们采用李群，李群结构是对学习问题很有用的一套理论工具，李群之所以受人们关注，一方面是李群有好的数学结构，另一方面受到物理学家和化学家广泛使用李群方法来处理物理学中的晶体数据、有机物和无机物的数据、药物分子结构数据等这些复杂数据的启发。如何把李群运用到机器学习中，以下文献提供了一个参考作用。　　对于构成李群的数据，我们采用李群学习范式分析数据的维数，紧致性，连通性，子群，陪集。但仍有一个问题必须解决：如何确保计算复杂度问题。李群存在着复杂的代数结构，代数结构对于数据的分析有着至关重要的作用，但与统计对比，机器学习的代数方面的研究涉及的很少，只保留在理论层面上，原因之一是由于对象的巨大数量，很难计算。　　2 基于群的朴素贝叶斯学习基本框架　　设想学习问题定义如下，学习器L工作在实例空间X和假设空间H上，H上假设X上定义的某种实数值函数（即H中每一个h为一函数：h，X→R其中R代表实数集），L面临的问题从H中抽取的目标函数h。如果实例空间X是一个可以用群G刻画的对称空间，或者实例X是一个群，则可以利用群作用于实例空间，产生实例空间X的商空间X/G，则假设空间H的h变换为h：X/G→R。本文学习算法的基本框架见图2.1。　　一般来说，给定的样本数据具有隐藏的对称性，无法直接作为实例空间X，如DNA分子序列，实例空间X的每个实例都相当于该样本数据提取的一个特征，所以构造一个有序的实例空间（特征空间），能够极大程度的反映不同DNA分子的差异。　　2.1 构造实例空间X：　　由于我们的算法主要针对分子序列分类，所以直接从样本数据出发。　　任何一个长度为的分子序列可以有一个函数s：P→A表示，其中P={1，2，…， }是字母表A的每个字母所处的有序位置的集合。典型的字母表比如：DNA分子序列的字母：A={A，G，T，C}，RNA分子的字母表：A={A，G，T，U}，或者简单的二元字母表A={U，Y}，嘌呤（U=A或者U=G）与嘧啶（Y=C或者Y=T）。Doi(1991)提出有效的局部序列长度为2，3，4，5，6。│A│表示字母表中字母的个数。X表示长度为L的所有│A│-序列构成的空间。实例空间X有│A│ 个实例。　　2.2 构造X的商空间　　已知实例空间X具有│A│个实例（特征），当较大时，则会出维数灾难问题，为了解决这个问题，可以根据实例空间X的规律，构造感兴趣的群对X进行划分，不同的群将会对实例空间X产生不同的划分，要结合具体问题构造不同的群。例如对于DNA分子序列构造的实例空间，我们感兴趣的是序列中符号的构成关系，所以一般选择n阶置换群Sn（n=2，3，4）。　　定义：（群作用）群在一个集合V的作用是一个