- 1、本文档共21页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数学建模之数据预处理
数据预处理 数学建模培训之 杨文霞 数学系 2009.7.11 数据预处理的重要性 自2000年以来,数学建模竞赛题目的数据提供方式 越来越多样(txt文档、acess数据、excel数据); 数据量越来越庞大; 快速而方便的从提供的数据中,找到我们所需要使用 的数据,就可以为后面的分析和处理节约时间,而不 为提取数据所累; 数据的存储、重用和传递,也是数学建模竞赛中常常 用到的; 对数据的使用和分析是建模的基础。 本课内容安排 以2000-08年数据为例,介绍如何将竞赛中提供的 不同数据,转换成被matlab所用的处理方法; ------核心问题是转化成矩阵 (2)推荐一些重要中间数据存储和处理方法; (3)利用matlab函数对数据进行基本观察。 第一部分 原始数据的预处理 2000年A题 DNA序列分类 数据格式:文本文档 Art-model-data.txt中,有三个数据是需要我们提取的, 前1-10行为已知的A类,11-20行为已知的B类,后20行 为分类未知,需要我们进行分类的数据。 分析:这个数据比较小,有很多处理方法,但是推荐大家 把原始数据做个备份,再用手工整理一下使用。 一行行的拷贝比较麻烦,可以先仔细观察数据,将不需 要的字符去掉,再整体拷贝。 麻烦之处在于:提供的数据没有空格,完全就是一串字符 本可以将数据存成矩阵,但因为长度不一样。 可先将数据读出来存成字符串,再转换成一个cell数据。 具体的程序请见程序shumodata00.m的第一部分; Nat-model-data.txt这个数据非常庞大,而且每一个DNA 串非常长,每一个DNA串的长度都不一样,在txt文件中, 每一个串用它的串号开始,空行结束。而且串号并不是 统一编码为3位,而是不同的位数。这给计算机处理和判 别带来困难。可以手工去掉前面的数字,若工作量太大, 使用fgetl一行行读进来,,进行判断,如果第一个字符是 数字,表示是每个DNA的开头;继续读字符直到数字结束, 出现:符号后,后面的字符表示DNA; 再遇到空白行,则表示上一个DNA串结束,下一个是新的 DNA串。同样把这182个DNA读进来,每个DNA作一行, 并转换成Cell结构,这样每一行的长度都是该DNA的实际 长度。 2000年第2题 钢管订购和运输(略) 2001年两个题目 第1题.血管三维重建 涉及到图像的读取 具体程序见: shumodata01.m 第2题.公交车调度 为word提供的数据 Word里面的表格数据,一般先拷贝到excel中,然后拷 贝出所需要的纯数据,存成ecxel格式,经由Matlab的 File\importdata 选项,导入到matlab的工作区间。 为保险起见,将导入的数据,存成一个.mat文件,以后 就可以重新Load进工作区间参与运算。 假设导入的数据为data1,可以做如下操作: save(d:\shumo\2001\data1.mat,data1); 这样,在关掉了matlab之后,只要重新运行: load(‘d:\shumo\2001\data1.mat’);即可导入数据。 建议大家将一些重要的、需要重用的数据都先save。 shumodata01.m 2002年两个题目(车灯光源优化设计,彩票问题) 数据很少,略过。 2003年两个题目 1.SARS传播模型 附件2:北京市疫情数据,可以按前面的方法,将数据拷 到excel后,存成文件,然后由matlab的import data,导入 到工作区间。也可以存起来。 2.露天矿生产的车辆安排 数据比较小,但是大家需要熟用matlab的绘图工具plot函 数等,达到友好、清晰的视觉效果。 2004年第1题 奥运会临时超市网点设计 提供的是access数据库,里面有三张表 如果大家直接在access里面做统计,需要需要大家会 一些简单的数据库查询语言。由于专业的限制,很多 同学可能没有学习过access数据库处理技术。 (只演示一下,同学们根据自己的实际情况学习) 在此介绍一种比较容易上手的“笨办法”,先用access 把数据库打开,大家会看到3张表,把这3张表分别导 入excel,然后在excel中进行统计。同样也介绍不需要 数学公式的“笨办法”。 1.直接在access中使用sql语言进行查询 a.打开数据库 b.选择“查询” c.新建“简单设计视图” d.把“显示表”关掉 e.在查询1窗口的上半部分 点右键“SQL视图” f.输入如下指令: SELECT count(*) from 第一次调查数据 where 西餐=yes; g.点工具栏的那个红色惊叹号,运行,可以得出选择西餐的人数 h.窗口关掉选择保存,以后直接就可以
您可能关注的文档
最近下载
- 检验科职业安全防护和职业暴露紧急处理.pptx
- 加油站安全风险分级管控清单.docx VIP
- T∕CBMF 37-2018 T∕CCPA 7-2018- 超高性能混凝土基本性能与试验方法.pdf
- 公开课----议论文阅读——论证思路省公开课获奖课件市赛课比赛一等奖课件.pptx
- 2024新苏教版一年级数学上册全一册全部教案(共21课时).pdf VIP
- 《我和小姐姐克拉拉》乐读分享ppt课件[文字可编辑].ppt
- 工程经济学第3版教学课件第二章 资金时间价值与现金流量.pdf
- 数据透视表教程-教学课件.pptx
- 日立GVF2、NPH系列FMT板、A板使用说明(2).pdf VIP
- 传染病预防控制必修和选修答案-2024年全国疾控系统“大学习”活动.docx VIP
文档评论(0)