- 1、本文档共21页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
近期工作汇报 -PDB信息统计和数据挖掘 黄涛 04.11.26 Outline PartⅠ 统计的意义 PartⅡ 伞形分布的统计与分析 PartⅢ 新的尝试 PartⅣ Discussing… PartⅠ PartⅡ DATA 基本信息 2004.05.04 51252 23711 预处理 Q8-Q3: PHDsec final filter PROCESS… 按时间序列建库 PROCESS… 切片处理:4.5. 6. 7. 8. 9 PROCESS… 切片统计与分析 结构概率 eg. H结构概率 =全H出现次数/出现总次数 结构概率为X轴,出现次数为Y轴对 全H,全E,全 C数据作图 三条主线: H E C之间 4个子库之间 不同切片长度之间 Analysis 切片长度5 扇形分布=整数效应?! PartⅢ 思路 Step1:按结构概率大小对切片库分别统计 Step2:可视化 Step3: 4.5.6.7.8.9 相似性算法-概率图-PAM250 预报验证 Result of Step1 概率库:每种出现切片对应结构概率 结构序列的重现 Statement of Step2 可视化图片 PartⅣ 目前的排列方式还不能得到满意的结果:好的算法 分别把H E C Rest聚类 再来叠合坐标…… 好的分析思路 进一步分析的方向…… Thank you for your attention 切片演示 * * 数据的急速膨胀 预报结构的基础 其它的统计 是否我们能够通过一些方法或者思路找到深藏在PDB中的结构与序列的某种规律 想法的产生 C T S C I E E B H H G 结构空位处理为X CCC CHC CEC EEE EHE ECE HHH HEH HCH 17744 94 0 ECECE 1994 1997 2000 2002 2004 统计时去除含有空位片断 48111 58681 162926 386428 qp4_5_del 41888 50457 142124 339868 qp3_5_del 38314 48150 130888 319877 qp2_5_del 27338 31993 79431 208971 qp1_5_del 全C的种类数 全E的种类数 全H的种类数 切片种类数 Database 128605 1118 1704 2401 3638 3002 5564 1547 2520 721 1182 223502 386428 114392 1217 1757 1718 2782 2752 4926 1295 1985 614 919 197744 339868 108952 802 1185 1500 2298 2304 3936 1131 1703 564 833 188989 319877 68269 407 595 766 1082 1415 2160 494 723 240 357 129540 208971 100% 75%_4 75% 67%_3 67% 50%_2 50% 33%_3 33% 25%_4 25% 0% Total 切片长度为5的全H数据 随机库模拟 H高概率较多 E均等 C高概率较少 做为结构序列中出现频率最高的全H 全E 全C与之相对应的蛋白质序列同时出现几率相当高,他们之间应该存在某种规律 预报分类时: H/~H优先 E/C 0.396906 0.403746 0.393121 0.408721 0.493683 111107 111107 69808 69808 69808 44099 44859 27443 28532 34463 time2_4 time2_3 time1_4 time1_3 time1_2 结构概率大于88%的%5H的序列 50 72 88 1165179 结构概率0.88(有限制) 1194389 结构概率0.88(无限制) 7233694 切片总数 0.266567 0.21743 0.262064 0.261025 0.256345 0.314879 9H_filter 0.267962 0.220042 0.264261 0.26324 0.260453 0.32096 8H_filter 0.269576 0.223506 0.26643 0.266262 0.264612 0.328188 7H_filter 0.276263 0.234317 0.275185 0.275162 0.274596 0.338028 6H_filter 0.327683 0.300525 0.320873 0.329469 0.
文档评论(0)