第三节信息处理与数据挖掘技术.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

第三节信息处理与数据挖掘技术第1页,共26页,星期日,2025年,2月5日一、化学计量学简介abriefintroductionofchemometrics化学计量学:化学与计算机结合的产物1974年,Kowalski与Wold提出建立国际化学计量学协会任务:运用数学和统计的方法设计或选择最佳测试过程和实验通过化学数据分析提供更多化学信息。范畴:纯化学与量子化学之间凡涉及计算和计算机的所有领域。应用举例:大连湾海水污染物与污染源之间的关系;控制由尿样获取身体健康状况的全部信息;简化化合物性质数据——结构,结构与性质的关系;新药产品质量检验——生产中的问题;决策犯罪现场的烟雾分析:香烟牌号,种类;破案第2页,共26页,星期日,2025年,2月5日二、信息评价informationappraise分析仪器是分析化学家为获取化学信息所使用的工具,因此可以由信息理论来评价仪器的性能。1.信息量和熵设有一事件有几种可能性,他们各自的概率为pi,Shannon定义信息熵:在信息理论中,习惯取“2”作为对数的底,此时单位为bit(e为底,nat)。设有一具有两种可能性的等概率事件:第3页,共26页,星期日,2025年,2月5日信息量和熵熵是事件不确定程度的度量,不确定程度越大,熵就越大。对于一个概率密度为p(x)的连续型分布熵的定义为:信息的概念是与事件发生的概率相联系的,出现小概率事件所包含的信息量大,因此可定义信息量:I=-lgpi如果事件发生后的概率不等于1,即它是不确定的,则信息量可表示为:I=lg(qi/pi)式中qi是事件发生后的概率。第4页,共26页,星期日,2025年,2月5日2.信息量与熵的关系如果通过某些方法获取信息使原来事件的不确定程度减小,所得到的信息的数量就是信息量,故信息量就是熵减少的量:I=H0-H式中H0和H分别表示获取“情报”前后,事件不确定程度。在分析化学中则是实验前后的熵。若经过实验后的结果完全确定,即实验后的熵=0,则:I=H0=Hmax即经过这样一个实验后,可能得到的最大信息量。第5页,共26页,星期日,2025年,2月5日3.分析化学实验中的信息量与熵在定性分析实验中,判断某一组分是否存在。实验前:概率:各为1/2(实验前并无任何信息)H0=1bit实验后:H=0故信息量:I=H0-H=1bit如果采用仪器分析定性,不能将全部组分检测出,如何确定?例:原子吸收测定含铜、锌试样(组成未知)。仅测定出Cu2+时的信息量,测定出Cu2+、Zn2+时的信息量分别是多少?(阴离子不能检测)。第6页,共26页,星期日,2025年,2月5日4.定量分析中有关参数与信息量在定量分析实验中,如果实验前知道某一组分的大致范围时,即p(x)均匀地分布在(x1,x2)区间内,则:由于分析中偶然误差的存在,结果不可能是一定值而成正态分布。设其标准偏差为σ,则:第7页,共26页,星期日,2025年,2月5日于是:σ越小,信息量越大。实验中增大信息量的途径?减少干扰、提高仪器灵敏度、减小噪声、增加测定次数等。第8页,共26页,星期日,2025年,2月5日5.仪器的最大信息量分析仪器通常有一测定限cmin,待测试样浓度低于此值时,不能用该仪器测定。该仪器实验前的熵为:Δc为仪器能分辨的最小浓度差,实际的信息量:第9页,共26页,星期日,2025年,2月5日对于多通道的仪器,可以有n个通道同时测定n种组分,其总的信息量是各通道的信息量之和:单位时间内信息量的变化称为信息流:理想的分析仪器应该在很短的时间内获得很大的信息量。第10页,共26页,星期日,2025年,2月5日6.仪器的效率和剩余度仪器的效率可用剩余度来衡量。剩余度的定义:R=Hman—H剩余度是熵偏离其最大值的度量。熵的一个重要性质是当所有的可能性都是等概率时,熵有最大值。在定量分析中,如果试样中待测

文档评论(0)

xiaoyao2022 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档