《基因数据预处理以及可视化分析案例》2400字.docxVIP

  • 0
  • 0
  • 约3.38千字
  • 约 5页
  • 2026-07-03 发布于湖北
  • 举报

《基因数据预处理以及可视化分析案例》2400字.docx

PAGE

PAGE15

基因数据预处理以及可视化分析案例

目录

TOC\o1-3\h\u12056基因数据预处理以及可视化分析案例 1

237421.1数据集来源与介绍 1

37991.2数据预处理 2

84771.3筛选差异表达基因方法 3

90981.4筛选差异表达结果 5

在搭建好所有的环境之后,开始处理数据,首先,将原始数据传输到HDFS文件系统,在虚拟机输入Linux命令:hdfsdfs-putdata.txthdfs:/input,文件会上传到文件系统的/input目录下,如图3-1所示

图3-1文件目录

1.1数据集来源与介绍

本次实验所使用的数据集是geo(GENEEXPRESSIONOMNIBUS)数据库编号为GSE7846的数据集,该数据集分析了5组来自子宫内膜异位患者的阵列HEECs(内皮细胞)和5组来自无子宫内膜异位患者的HEECs。一共有十个样本信息,从GSM190395到GSM190404,其中前五份样本是患病的基因表达强度信息,后五份样本是正常的基因表达强度信息,GEO数据库中提供的矩阵文件包括了这10列样本的所有数据,如图3-2所示:

图3-2原始数据

1.2数据预处理

从geo数据库中得到了矩阵数据之后,查看该数据发现不仅有我们实验所需的基因探针id、基因表达强度等信息还有对于整

文档评论(0)

1亿VIP精品文档

相关文档