2026年生物信息分析师考试题库(附答案和详细解析)(0110).docxVIP

  • 0
  • 0
  • 约1.06万字
  • 约 13页
  • 2026-02-06 发布于江苏
  • 举报

2026年生物信息分析师考试题库(附答案和详细解析)(0110).docx

生物信息分析师考试试卷

一、单项选择题(共10题,每题1分,共10分)

以下哪个工具主要用于将测序reads比对到参考基因组?

A.Velvet(基因组组装)

B.BWA(Burrows-WheelerAligner)

C.GATK(基因组分析工具包)

D.Salmon(转录本定量)

答案:B

解析:BWA是经典的短序列比对工具,用于将NGSreads与参考基因组比对;A选项Velvet用于denovo基因组组装;C选项GATK主要用于变异检测和数据校正;D选项Salmon用于RNA-seq的转录本定量。

下列文件格式中,用于存储测序原始数据(包含质量值)的是?

A.FASTA(仅序列)

B.FASTQ

C.BAM(比对后的二进制格式)

D.VCF(变异信息)

答案:B

解析:FASTQ格式每四行为一个记录,包含序列ID、测序序列、质量值标识行和质量值,是原始测序数据的标准格式;A选项FASTA仅存储序列信息;C选项BAM是SAM的二进制压缩格式,用于存储比对结果;D选项VCF用于存储基因组变异信息(如SNP、InDel)。

在RNA-seq差异表达分析中,DESeq2的核心假设是?

A.基因表达量服从泊松分布

B.基因表达量服从负二项分布(考虑技术重复变异)

C.基因表达量服从正态分布

D.基因表达量与测序深度无关

答案:B

解析:DESeq2假设RNA-seq计数数据符合负二项分布(NegativeBinomialDistribution),该分布能同时建模均值和方差(过分散现象),更贴合实际测序数据;A选项泊松分布假设均值等于方差,不符合RNA-seq的过分散特性;C选项正态分布适用于连续型数据,而非计数数据;D选项错误,DESeq2需通过标准化校正测序深度差异。

系统发育树构建中,邻接法(Neighbor-Joining)属于哪种方法?

A.基于距离的方法(通过计算序列间距离构建树)

B.最大似然法(基于概率模型优化树结构)

C.贝叶斯推断(通过后验概率评估树拓扑)

D.最大简约法(寻找最少进化步骤的树)

答案:A

解析:邻接法通过计算所有序列两两之间的遗传距离,逐步合并距离最近的节点构建树,属于基于距离的方法;B、C、D分别对应不同的系统发育树构建策略,核心差异在于是否直接使用序列比对数据(最大似然、最大简约)或转换为距离矩阵(邻接)。

单细胞RNA-seq分析中,“细胞分群”的主要依据是?

A.细胞的物理大小

B.基因表达谱的相似性(通过降维如PCA或UMAP)

C.测序数据的测序深度

D.样本的来源批次

答案:B

解析:单细胞分群的核心是通过降维(如PCA、t-SNE、UMAP)将高维基因表达数据映射到低维空间,基于表达谱的相似性聚类,识别不同细胞类型或状态;A、C、D均为技术干扰因素,需在分群前通过标准化或批次校正排除。

基因组组装质量评估指标N50的定义是?

A.所有contig中长度中位数

B.按长度排序后,累积长度达到总长度50%时的contig长度

C.最长contig的长度

D.所有contig的平均长度

答案:B

解析:N50是组装质量的关键指标,计算方式为将所有contig按长度从大到小排序,累加长度直到达到总组装长度的50%,此时对应的contig长度即为N50;A是中位数长度,C是最长contig(L50),D是平均长度,均非N50定义。

BLAST(BasicLocalAlignmentSearchTool)的主要用途是?

A.序列相似性搜索(寻找同源序列)

B.基因组变异检测

C.转录本组装

D.蛋白质结构预测

答案:A

解析:BLAST通过局部比对算法,在数据库中搜索与查询序列高度相似的同源序列,广泛用于基因功能注释;B是GATK等工具的功能,C是StringTie等工具的功能,D是AlphaFold等工具的功能。

生信分析中,“去接头污染”通常在哪个步骤进行?

A.测序数据质量控制(预处理)

B.比对到参考基因组

C.变异检测

D.功能富集分析

答案:A

解析:去接头污染是原始测序数据质量控制的关键步骤(常用工具如Trimmomatic),旨在去除测序过程中引入的接头序列,避免影响后续比对和分析;B、C、D均为后续分析步骤,需在clean数据基础上进行。

蛋白质互作网络分析常用的数据库是?

A.GenBank(核酸序列)

B.STRING

C.Ensembl(基因组注释)

D.GEO(基因表达数据库)

答案:B

解析:STRING数据库整合了已知和预测的蛋白质-蛋白质相互作用信息,支持网络可视化和功能富集;A是核酸序列数据库,C是基因组注释数据库,D是基因表达公共数据库。

三代测序(如PacBio

文档评论(0)

1亿VIP精品文档

相关文档