- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
案例分析:基于新一代测序数据分析4 种癌的差异表达与调控
一、分析流程
二、短序列数据准备
Step1 :访问NCBI SRA 数据库网站
/sra
Step2 :在搜索框中输入查询词,本次实验我们用“lung cancer”作为查询词。按 ,
得到查询结果。
1
Step3 :点击结果页面右侧的 ,这8 套数据是公共数据,可以自由下载。另外
两套数据 是需要申请的。
Step4 :观察这8 套数据,分别是吸烟、不吸烟者中的肺癌患者和正常人样本,还包括2 种
实验平台。点击感兴趣的数据连接,本次实验点击第一个链接。
Step5 :页面中包含关于研究(Study )、样本(Sample )、实验(Library)等信息的描述,点
击 查看详细信息。如点击Sample 行的more,得到如下信息:
其中记录了该样本取自2 男1 女的气道上皮。
2
点击Library 行的more,得到如下信息:
其中记录了测序实验的一些信息。该实验采取NuGEN 实验平台,单末端测序,测序长度36bp。
表示该实验是单末端测序。
表示测序深度是约2778 万read,可以点击链
接SRR192340 下载实验数据。
Step6 :点击页面中的 可以链接到完整实验的记录,如下:
点击页面右侧的 链接可以直接下载全部8 个样本的测序数据,使用SRA
提供的Aspera 下载工具将快速下载数据。点击链接,选择存储地址并按 按钮,如
下:
弹出下载界面,可以看到速度非常快。
下载完成的数据如下:
3
对于下载的每一套数据和每一个样本,要做好疾病信息,样本信息的记录,以便后续分析。
每一个目录是一个样本测序的数据,目录里面有一个以.sra 结尾的文件,例如:
sra 文件是一个压缩格式的文件,无法直接阅读,使用前需要通过软件将其转换为fastq 等格
式。
在服务器的/data 目录中已经准备好了4 套癌症的测序数据。
三、短序列数据格式转换
Step1 :访问NCBI SRA 数据库网站,下载SRA Toolkit 软件。点击
Step2 :在打开的页面中,点击下载需要的版本。
4
Step3 :下载的Windows 版本是一个zip 压缩包 ,首先解压缩,如
下:
文件夹内包含多个实用程序以及帮助文档。这些程序需要在Windows 控制台中执行。
如果熟悉Linux 操作系统,建议在Linux 系统下完成分析工作。
Step4 :打开Linux 远程终端。首先在Windows 下找到程序 ,双击运行。
点击 ,弹出登录对话框。
在Host Name 栏中填入服务器地址:30,在User Name 栏中填入座位号,如A1 。
按 ,弹出密码对话框,填入座位号,如A1 ,注意大小写。
5
Step5 :执行命令fastq-dump,如下:
程序列出了fastq-dump 的使用方法和版本号。通过-A 参数指定输出的fastq 格式文件的文件
名。
Step6 :运行命令
fastq-dump --split-3 -N 1 -X 1000 -A SRR192333
/data/SRP006676.lung_cancer.mRNA-seq/SRR192333.NS_Illumina/SRR192333.sra
为了快速演示,在-A 之前加入参数-N 1 -X 1000 ,只转换第1 到第1000 个序列 (spot )。
输入文件为/data/SRP006676.lung_cancer.mRNA-seq/SRR192333
文档评论(0)