- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
训练集Training Set 用来获得模型参数 测试集Testing Set 从训练集以外独立采样 反映系统面对真实世界的处理能力 测试集经常被无意识地“做了手脚” 交叉确认集Cross-Validation Set 从训练集和测试集以外独立采样 主要用来帮助做设计决策 测试集 测试集 从训练集去评价系统的性能,结果往往过于乐观 如果模型的参数比需要的多很多时,获得100%的准确率也是可能的 过拟和(Over-fitting)常常出现在训练数据的数量不足以支持模型的复杂程度之时 为此,我们需要另一个数据集来模拟用户的真实需要 在设计阶段,不允许偷看测试数据的细节,以保证测试数据不被污染 你不能参照测试数据来决定模型的复杂度,特征空间的维数,以及什么时候决定停止训练过程等 设计决策可以参照交叉确认数据进行 每一个阶段采用一个不同测试集 当你试图选择一个最好的方法使测试效果达到最佳时,实际上已经在无意识地使你的系统偏向测试集 问题的关键在于测试集并不是真实数据本身,如果面向测试集调整参数,可能造成系统对于从未见过的真实数据效果下降 交叉确认集 如果在训练集合上获得了比较差的结果,我们必须重新设计 如果在训练集合上获得了比较好的结果,那可能是因为: 模型确实好(在测试数据上性能一样会好) 模型过拟和(在测试数据上性能会下降) 由于不允许使用测试集来改进系统设计,因此需要另一个数据集 性能评价 使用有限的样本进行性能测试 有估计误差 性能评价的结果和测试数据的大小有关 不同数据集的测试结果往往不同 性能上限Performance Upper Bound 人与人取得一致的指标就是系统性能的上限 联立表(Contingency table) 第一类:+ 第二类:- 系统给出的标记 + - 正确标记 + N11 N12 - N21 N22 准确率P(Precision) N11/(N11+N21) 召回率R(Recall) N11/(N11+N12) 错误率E(Error Rate) (N12+N21)/(N11+N12+N21+N22) F-measure 2PR/(P+R) 谢谢! * 现在数学模型还没有一个统一的准确的定义,因为站在不同的角度可以有不同的定义。不过我们可以给出如下定义。数学模型是关于部分现实世界和为一种特殊目的而作的一个抽象的、简化的结构。具体来说,数学模型就是为了某种目的,用字母、数学及其它数学符号建立起来的等式或不等式以及图表、图象、框图等描述客观事物的特征及其内在联系的数学结构表达式。 * 大数定律表表明:事件发生的频率依概率收敛于事件的概率p,这个定理以严格的数学形式表达了频率的稳定性。就是说当n很大时,事件发生的频率于概率有较大偏差的可能性很小。由实际推断原理,在实际应用中,当试验次数很大时,便可以用事件发生的频率来代替事件的概率。 * 协方差衡量两个随机变量如何共同变化,即它们之间的互动性。协方差可为正值、负值或零。正的协方差表明,当一个随机变量出现大于平均值的值时,另一个随机变量的值也会大于均值。负的协方差正相反,一个出现大于均值的值,与之相反,另一个则会出现小于均值的值。协方差为零,表明把两者的结果简单配对并不能揭示出什么固定模式。 * 随机过程是一连串随机事件动态关系的定量描述。随机过程论与其他数学分支如位势论、微分方程、力学及复变函数论等有密切的联系,是在自然科学、工程科学及社会科学各领域研究随机现象的重要工具。随机过程论目前已得到广泛的应用,在诸如天气预报、统计物理、天体物理、运筹决策、经济数学、安全科学、人口理论、可靠性及计算机科学等很多领域都要经常用到随机过程的理论来建立数学模型。 * 申农的信息理论,经过50~60年代许多学者的研究,逐渐发展成一门相当完整的科学理论。申农的信息论是以通信系统模型为对象,以概率和数理统计为工具,从量的方面描述信息的传输和提取方面的问题,所以称统计信息。它研究信源能够给出多少信息量,信道能够传送多少信息量,而信宿又能收到或提取多少信息量。由于申农的信息理论,对信息所作的定量描述是以概率论和数理统计为基础,因而信息可以定量地进行计算,所以使信息论成为一门科学,这正是申农的功绩。同时,也正因为如此,它只是对信息作定量的描述而不考虑信息的其它方面,如信源发出的信息语义(意义)如何?怎样对之进行定理描述?信宿收到信息后的效用如何?价值怎样?有无相对性?这些问题涉及到信息的语义与实效,或者说涉及信息的意义与价值等问题,而这些正是申农理论的不足之处。 信息 控制论创始人(维纳 Norbert Wiener) 信息既不是物质也不是能量,是人类在适应外部世界时以及在感知外部世界时而作出协调时与外部环境交换内容的总和。 信息论奠基者(香农 Clause S
原创力文档


文档评论(0)