- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
(19)国家知识产权局
(12)发明专利
(10)授权公告号CN114930724B(45)授权公告日2025.07.04
(21)申请号201980102589.7
(22)申请日2019.12.31
(65)同一申请的已公布的文献号申请公布号CN114930724A
(43)申请公布日2022.08.19
(85)PCT国际申请进入国家阶段日
2022.05.26
(86)PCT国际申请的申请数据
PCT/CN2019/1307312019.12.31
(87)PCT国际申请的公布数据
WO2021/134574ZH2021.07.08
(73)专利权人深圳华大智造科技股份有限公司
地址518083广东省深圳市盐田区北山工
业区综合楼及11栋2楼
(72)发明人徐崇钧周玉君邓梓晴龚梅花蒋慧徐讯
(74)专利代理机构北京知帆远景知识产权代理有限公司11890
专利代理师肖阳
(51)Int.CI.
H03M7/30(2006.01)
(56)对比文件
CN1536068A,2004.10.13
CN101335895A,2008.12.31
US2017017717A1,2017.01.19
审查员李旭梅
权利要求书3页说明书12页附图6页
(54)发明名称
利用基因突变词典压缩基因组数据的方法
和装置
(57)摘要
CN114930724B一种利用基因突变词典压缩基因组数据的方法和装置,其中,具体涉及创建基因突变词典的方法,包括:获取一种物种的多个个体的基因组序列数据和该物种的参考基因组数据;将多个个体的基因组序列数据分别比对到参考基因组数据上,得到每个个体的基因组序列数据相对于参考基因组数据的突变结果;将该物种的基因组划分成若干个有生物学意义的单元分区;根据突变结果,对每个单元分区的突变体情况分别进行统计,生成每个单元分区在多个个体中的全部突变体类型,并对突变体类型编号获得基因突变词典。本发明解决了基因组数据压缩的难题,使其存储量明显降低,并极大地降低了存储数据的成
CN114930724B
数据获取
数据比对
分区划分
词典生成
S101
S102
S103
S104
CN114930724B权利要求书1/3页
2
1.一种创建基因突变词典的方法,其特征在于,所述方法包括:
获取一种物种的多个个体的基因组序列数据和该物种的参考基因组数据;
将所述多个个体的基因组序列数据分别比对到所述参考基因组数据上,得到每个个体的基因组序列数据相对于参考基因组数据的突变结果;
将所述物种的基因组划分成若干个有生物学意义的单元分区;
根据所述突变结果,对每个单元分区的突变体情况分别进行统计,生成每个单元分区在所述多个个体中的全部突变体类型,并对所述突变体类型编号,获得所述基因突变词典,该基因突变词典中包括每个单元分区对应的多个突变体类型及其编号;
其中,所述单元分区包括编码区、非编码区和基因中的至少一项。
2.根据权利要求1所述的方法,其特征在于,所述物种是人;所述多个个体是1000个以上的人体。
3.根据权利要求1所述的方法,其特征在于,所述有生物学意义的单元分区的数量是数千个至数万个。
4.根据权利要求1所述的方法,其特征在于,所述有生物学意义的单元分区的数量是60,000个,并允许上下10%的误差范围。
5.根据权利要求4所述的方法,其特征在于,所述单元分区包括30,000个基因编码区和30,000个非编码区,它们的数量分别允许上下10%的误差范围。
6.根据权利要求1所述的方法,其特征在于,所述对每个单元分区的突变体情况分别进行统计,生成突变体类型并对所述突变体类型编号的步骤,包括:
针对每个所述单元分区,按照个体顺序依次将所述多个个体的突变结果作为突变体类型进行编号和计数,其中计数得到的个数是支持该突变体类型的个体数量,并且若后面一个体的突变结果与前面任一个体的突变结果一致,则采用前面个体的突变体类型及其编号并在该突变体类型的计数基础上加1;若后面一个体的突变结果与前面所有个体的突变结果均不一致,则在词典中新增一个突变体类型,即作为一个新的突变体类型并给出编号和计数,最终获得每个所述单元分区的全部突变体类型以及每一突变体类型的编号和计数数量。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
对各个突变体类型按照其计数数量从
您可能关注的文档
- CN114518151B 一种容器液位的检测装置及检测方法 (中国原子能科学研究院).docx
- CN114528244B 异构系统音频数据交互处理方法、装置及存储介质 (珠海全志科技股份有限公司).docx
- CN114531932B 一种光伏发电系统、光伏逆变器及检测光伏组串对地故障的方法 (华为数字能源技术有限公司).docx
- CN114545475B 一种复杂环境下的多源组合导航定位方法 (南京航空航天大学).docx
- CN114546638B 基于高性能并行优化的海洋数据同化方法及系统 (中国科学院计算技术研究所).docx
- CN114551778B 制造由碳、硫和ptfe所构成的均质化混合物的方法 (耐驰干法研磨技术有限公司).docx
- CN114565836B 紫外放电图像-高光谱图像的污秽绝缘子状态评估方法 (国网青海省电力公司检修公司).docx
- CN114581955B 近视防控方法、装置、系统、存储介质和设备 (苏州科医世凯半导体技术有限责任公司).docx
- CN114594779B 贴边清扫轨迹规划方法、装置及电子设备、存储介质 (智道网联科技(北京)有限公司).docx
- CN114598970B 音频处理方法、装置、电子设备及存储介质 (北京小米移动软件有限公司).docx
- 服务业安全风险排查测试卷.docx
- 山东省济南第一中学2025-2026学年高一上学期1月学情检测英语试题含答案.docx
- 个人财务行为承诺书6篇范文.docx
- 四川省南充市仪陇中学2025-2026学年高一上学期12月月考试题 语文含答案.docx
- 供应链管理流程优化工具库存管理优化版.doc
- 四川省南充市仪陇中学2025-2026学年高一上学期12月月考试题 数学含答案.docx
- 信守约定行为自律承诺书(9篇).docx
- 供应链采购策略分析工具库成本控制.doc
- 四川省南充市仪陇中学2025-2026学年高一上学期12月月考试题 生物含答案.docx
- 借款人信用保证承诺书(8篇).docx
最近下载
- 江苏科技大学2024-2025学年第2学期《线性代数》期末试卷(B卷)及参考答案.docx
- 《聚酰亚胺》课件:一种耐高温高分子材料的深度解析.ppt VIP
- 1000teu集装箱船的总体设计.docx
- 铜矿选矿3完整版.pptx VIP
- 【南外仙林】2025六下数学1-6单元作业(试卷版).docx VIP
- 国家开放大学电大《办公室管理》期末题库及答案真题题库.docx VIP
- 2023年西安交通大学计算机科学与技术专业《计算机网络》科目期末试卷B(有答案).docx VIP
- GBT44013-2024应急避难场所分级及分类.docx VIP
- 2023年西安交通大学计算机科学与技术专业《计算机网络》科目期末试卷A(有答案).docx VIP
- 南外仙林分校小升初试题.docx VIP
原创力文档


文档评论(0)