- 90
- 0
- 约2.21千字
- 约 21页
- 2017-03-21 发布于湖北
- 举报
* * * * * 从76126对相互作用对选出的3962对作为实验的正例集 第一种策略是,不存在相互作用的蛋白质对是从正例集中随机抽出两对相互作用的蛋白质对,分别在这两对中各取一条组成的反例集。 第二种策略是基于这样一个假设:占据不同的亚细胞定位的蛋白质不存在相互作用。 最后一种策略是由人工构造的蛋白质序列组成的蛋白质对作为反例集。已经证明,如果一对相互作用的蛋白质序列的顺序被打乱,这两种蛋白质可以被视为不存在相互作用 * * * 特征降维 曾建沧 厦门大学数据挖掘研究组 1/20 高维特征向量影响 2/20 维度灾难 增加数据处理的代价 降低分类器的泛化能力 降低特征的规模 特征维数下降方法 3/20 降维 特征选择 ? 从原始维度映射到新的维度 最佳子集选择(Occams razor) 降维 主成分分析(PCA) 4/20 0 斤 kg 5/20 PCA 预处理 数据集合: PCA 6/20 0 PCA 7/20 0 d 8/20 PCA 最优化问题 目标函数: Max: PCA 9/20 拉格朗日求解: PCA 10/20 。。。 . … N*M K*N 特征选择 11/20 信息增益 随机变量X: b = 2,bit e,nat 信息增益 12/20 条件熵 随机变量X给定的条件下随机变量Y的条件熵定义为: 13/20 信息增益 信息增益 14/
原创力文档

文档评论(0)