- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种基于信息熵的判别分析方法及其应用.pdf
一种基于信息熵的判别分析方法及其应用
宁自军
(嘉兴学院 中国,314001)
摘要 判别分析是多元统计分析中应用较广的一个分支,最早出现在统计生物学中,目
前已在许多学科领域中已被广泛采用。在判别分析中常见的分析方法包括距离判别、贝叶斯
判别及费歇尔判别等,本文基于信息熵理论提出一种新的判别方法,并以费歇尔1936年的
鸢尾花资料为例运用该方法进行了实例分析。
关键词 多元统计;判别分析; 熵
1、信息熵与负熵
物理学中的熵,最初是克劳修斯把它作为描写系统的热力学态函数而引入的,并把热力
学第二定律表述为熵增原理。1877年,玻尔兹曼(Boltzman)等价地引入了统计意义的熵。
作为一个物理概念,熵用以描述系统的状态,热力学中物质系统内部的微观本质,必须在宏
观性质上体现出来,当状态确定时,物质系统的热力学混乱度也一定,状态熵函数是混乱度
的单调递增函数,两者间的定量关系可用著名的波尔兹曼公式表述,该公式指明了熵是无序
的量度,即熵增大,无序程度增加。1948年,香农在其狭义信息论中,参照玻耳兹曼熵引
入信息熵来描写概率信息系统状态的不确定性。如果把物质系统可能出现的状态视为一随机
事件,则一个随机变量X的熵可以理解为在试验之前取值不确定程度(即无序程度)的一种度
量。
设一个试验有 n 个结果 X( i= 1,2,...,n),X 发生的概率为 P,熵可以定义为:
i i i
H? ??p lnp ,它反映了事件的不确定性程度。可以证明,对于等概率信息系统,熵最
i i
1 1
大,因为此时有p ? p ? ? p ?? ? p ,不确定性最大,H? ?N ln ? lnN,它
1 2 i N
N N
表示信息系统状态的最大不确定性。
在狭义信息论中,信息是指被消除的信息系统状态的不确定性,而“消除不确定性”就
是“减少信息熵”。在概率统计中,如果给定一定条件或获得了某种信息,此时概率分布就
会改变,假定某概率信息系统在获得信息之前的不确定性为H ,获得信息之后它的不确定
0
性减为H ,系统消除的不确定性 H ?H 就给出了系统获得的信息量 I ,其数学表达
t ? 0 t? ? ?
式为I? H ? H ? ? H ? H ,即系统从外界汲取的信息量等于系统熵增量的负值,简称
0 t ? t 0 ?
负熵。
对于连续型随机向量(变量)X,若其概率分布密度为p(x),则熵定义为:
H x ? ? p x lnp x dx? ?Elnp x
? ? ? ? ? ? ? ? ?
对于一般连续型随机试验,在方差一定的前提下,可以证明正态分布具有最大的熵
1
p 1 p
ln 2? ? ln ? ? ,其中x N 。
? ? xx? NN ?,?
p ? ?
2 2 2 pp
文档评论(0)