专利详细信息
文献类型:专利
专利类型:发明专利
是否失效:否
是否授权:否
申 请 号:CN201710982649.1
申 请 日:20171020
申 请 人:人和未来生物科技(长沙)有限公司
申请人地址:410152 湖南省长沙市开福区青竹湖路太阳山路湖心岛2号栋
公 开 日:20190430
公 开 号:CN109698702A
代 理 人:谭武艺
代理机构:43008 湖南兆弘专利事务所(普通合伙)
语 种:中文
摘 要:本发明公开了一种基因测序数据压缩预处理方法、系统及计算机可读介质,方法实施步骤包括获取参考基因组数据,获取短串K‑mer及其预测字符c之间的映射关系,得到包含参考基因组的正链及负链中任意短串K‑mer及其对应相邻位的预测字符c的预测数据模型P1;系统为包含编程以执行前述方法的计算机系统,计算机可读介质包含执行前述方法的计算机程序。本发明能够面向无损基因测序数据压缩的参考基因组数据预处理方法,为基因测序数据的高性能无损压缩和解压算法提供充分有效的信息,能够实现对任意基因组数据样本中的短串K‑mer的相邻位的预测字符c进行预测,预测信息越准确,则可以实现对基因组数据样本实现越低的压缩率。
主 权 项:1.一种基因测序数据压缩预处理方法,其特征在于实施步骤包括:1)获取待处理的参考基因组数据dataref;2)获取参考基因组数据dataref中作为短串K-mer的任意定长子字符串及其预测字符c之间的映射关系,得到包含参考基因组的正链及负链中任意短串K-mer及其对应相邻位的预测字符c的预测数据模型P1。
关 键 词:基因组数据 基因测序 计算机可读介质 预处理 预测 数据压缩 相邻位 参考 样本 计算机程序 方法实施 算法提供 无损压缩 映射关系 预测数据 预测信息 基因组 压缩率 计算机系统 负链 正链 无损 编程
IPC专利分类号:H03M7/30(20060101)
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...