期刊文章详细信息
文献类型:期刊文章
机构地区:[1]华东师范大学软件学院,上海市200062 [2]中国科学院上海生命科学研究院计算生物学研究所(中国科学院-马普学会计算生物学伙伴研究所),上海市200031
年 份:2008
卷 号:25
期 号:5
起止页码:607-610
语 种:中文
收录情况:BDHX、BDHX2004、CAS、CSCD、CSCD2011_2012、JST、ZGKJHX、核心刊
摘 要:许多生物序列数据库中都含有大量的冗余序列,这些冗余序列通常不利于对数据库的统计分析和处理,而且它们要占用更多的计算机存储和处理资源。针对这个问题,本文中我们设计了一种去除蛋白质冗余序列的算法。该算法基于图论最大独立集的概念来生成非冗余序列集合,对目前存在的不少蛋白质去冗余程序所采用的由Hobohm和Sander最早设计的一种首先将序列分成若干簇然后取出代表序列的算法进行了改进,使得生成了更多的非冗余代表序列集合,避免了一些非冗余的序列也被去除。我们开发出了实现该算法的程序FastCluster,可以用来去除蛋白质数据库中的冗余序列。
关 键 词:生物信息学 最大独立集 代表序列 去冗余
分 类 号:TP301]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...