UniProt是Universal Protein的英文縮寫,,是信息最豐富、資源最廣的蛋白質(zhì)數(shù)據(jù)庫,。它由整合Swiss-Prot,、TrEMBL和 PIR-PSD三大數(shù)據(jù)庫的數(shù)據(jù)而成。他的數(shù)據(jù)主要來自于基因組測序項目完成后,,后續(xù)獲得的蛋白質(zhì)序列,。它包含了大量來自文獻(xiàn)的蛋白質(zhì)的生物功能的信息。
UniProtKB全稱UniProt Knowledgebase(UniProt知識庫)它是經(jīng)過專家校驗的數(shù)據(jù)集,,主要由兩部分組成:UniProtKB/Swiss-Prot(包含檢查過的,、手工注釋的條目)和UniProtKB/TrEMBL(包含未校驗的、自動注釋的條目),,在2010年8月是10日發(fā)布的版本中,,UniProtKB/Swiss-Prot包含519,348條注釋條目,UniProtKB/TrEMBL包含11,636,205條注釋條目,。
UniProtKB/Swiss-Prot
高質(zhì)量的,、手工注釋的、非冗余的數(shù)據(jù)集,;主要來自文獻(xiàn)中的研究成果和E-value校驗過計算分析結(jié)果,。有質(zhì)量保證的數(shù)據(jù)才被加入該數(shù)據(jù)庫。
UniProtKB/TrEMBL
該數(shù)據(jù)集包含高質(zhì)量的計算分析結(jié)果,,一般都在自動注釋中富集,,主要應(yīng)對基因組項目獲得的大量數(shù)據(jù)流以人工校驗在時間上和人力上的不足,。他能注釋所有可用的蛋白序列。在三大核酸數(shù)據(jù)庫(EMBL-Bank/GenBank/DDBJ)中注釋的編碼序列都被自動翻譯并加入該數(shù)據(jù)庫中,。它也有來自PDB數(shù)據(jù)庫的序列,,以及Ensembl、Refeq和CCDS基因預(yù)測的序列,。
UniParc
UniParc全稱是UniProt Archive,,他是一個綜合性的非冗余數(shù)據(jù)庫,他包含了所有主要的,、公開的數(shù)據(jù)庫的蛋白質(zhì)序列,。 由于蛋白質(zhì)可能在不同的數(shù)據(jù)庫中存在,并且可能在同一個數(shù)據(jù)庫中有多個版本,,為了去冗余,,UniaraParc對每條唯一的序列只存一次,。無論是否為同一物種的序列,,只要序列相同就被合并為一條,每條序列提供穩(wěn)定的,、唯一的編號UPI,。該數(shù)據(jù)庫只含有蛋白質(zhì)的序列信息,而沒有注釋數(shù)據(jù),。