生物统计学的未来.ppt

  1. 1、本文档共30页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
生物统计学的未来 方积乾 中山大学公共卫生学院 一、引言 学术界往往很不了解统计学的作用 许多统计学成就来自复杂的数学和计算工具,所以只进入少数学者的视野 什么是统计学? 统计学是一个学科,研究变异性、不确定性和面对不确定性的决策 ---- 对所有科学技术都重要,注定是一门多学科的科学 ---- 多数统计学应用和许多统计学研究是其它专业领域的科学家完成的 (DR Cox) 统计学科研的作用 统计学越来越不同于其它数学领域,计算机和信息科学工具至少和概率论一样重要。 统计学科研的作用是发展新的工具,应用于科学前沿。 统计学界 在美国,现有86个统计学、生物统计学和生物计量学的博士点 很大一部分统计学家工作于统计系之外 ---- 生物统计系、医学院、商学院、社会科学系 ---- 政府机构、工业界(尤其是制药厂) 统计学的现状 数据收集 ---- 高速计算机和传感器以及某些实验科学可产生巨量数据(例如人类基因组) ---- 需要新工具来组织和提取重要信息。 (National Science Foundation (1998) report 98-95) 数据和信息的区别:将数据转化为信息需要统计理论和实践方面的洞察力、技术和训练。(Zelen) 统计学的现状 科研合作的机会增多 ---- 应用、多学科课题中统计学的错用严重 ---- 由于大量数据的产生,人们主张统计人员进入研究团队 (National Science Foundation (1998) report 98-95) 统计学的现状 科学引用指数(Science Citation Index): 1991-2001年其间25 位引用最多的数学科学家中18位是统计学或生物统计学家; Journal of the American Statistical Association 是被引用最多的数学科学杂志; 最重要的一篇文章是Efron (1979) 引入 boostrap 方法;500 次最近的引用中只有152 次出现在统计学文章中 统计学的核心 统计学与数学的其它分支不同,总是和应用、结果的重要性联系在一起。 (National Science Foundation (1998) report 98-95) 统计学的核心是学科内在的东西,而不是特定科学问题对统计学的要求。 统计学核心方面的研究着重基于该学科普遍原理发展统计模型、方法和相关理论。 统计理论和统计实践 有些同事称自己是数理统计学家或应用统计学家。这两个术语过时了,必须丢弃。 前者不和数据打交道,后者不涉及理论 (Selen) 二、统计研究面临的挑战 数据增长的规模: 数据 ---- 指数 数据分析 ---- 二次方 统计学家---- 线性 数据缩减和压缩 “缩减”: 用新的思路指导模型选择、预测和分类 “压缩”: 深刻了解数据结构有助于压缩储存和较好地重现。 统计学界以外的数据分析 ---- 许多方法和计算策略是统计学界以外发展起来的 (如machine learning 和 neural network) ---- 未来研究应将这些machine learning 和其它方面发展起来的大量、复杂数据集的分析方法纳入统计学核心知识。 ---- 如果我们的目标是利用数据解决问题,那末我们必须从单纯依靠数据模型走向采纳各种各样工具。 大p小n多变量分析 例: 曲线资料、谱、图像、DNA 微阵列 ---- 几乎没有现成的统计理论支持和理解主成分分析、典则分析等用于降维的富有启发性的方法 ---- 其它领域的创新可能有助于这个问题。 例: 随机矩阵理论,过去40年发展了有许多模型和方法,近年引起了概率和组合数学方面极大的兴趣。 Bayes 和有偏估计 发展和开拓Bayesian 方法和现代非参数、半参数统计之间的联系,包括研究 Bayesian 和and frequencist 结合的方法学。 ---- 对于具有大量变量的巨型数据,需要更广泛的有偏估计理论。 ---- 也需要进一步的Monte Carlo方法做推断。 证明和计算实验之间的中间地带 证明 – 太难,或非头等重要 计算实验– 太任意和不足以令人信服 例: 混合模型 – 大多忽略识别问题,因为困难,并加重模型结构的多样性 三、生命科学中的统计学 上半个世纪的里程碑: -- 生物统计学

文档评论(0)

kaku + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8124126005000000

1亿VIP精品文档

相关文档