UniProt

A Wikipédiából, a szabad enciklopédiából
UniProt

Kategória
  • biológiai adatbázis
  • internetes adatbázis
  • adatkönyvtár
  • gráfadatbázis
  • ELIXIR Core Data Resource
LicencCreative Commons Attribution-NoDerivs
Az UniProt weboldala

A UniProt szabadon elérhető fehérjeszekvencia- és -funkciósinformáció-adatbázis, sok bejegyzése genomszekvenálási projektekből származik. Sok információt tartalmaz a fehérjék biológiai funkciójáról a szakirodalomban. A UniProt-konzorcium tartja fenn, mely két európai bioinformatikai szervezetből és egy Washington, DC-ben (Amerikai Egyesült Államok) működő alapítványból áll.

A UniProt-konzorcium[szerkesztés]

A UniProt-konzorcium tagjai az Európai Bioinformatikai Intézet (EBI), a Svájci Bioinformatikai Intézet (SIB) és a Protein Information Resource (PIR). A Wellcome Trust Genome Campusben (Hinxton, Egyesült Királyság) lévő EBI számos bioinformatikai erőforrást és szolgáltatást nyújt. A Genfben működő SIB tartja fenn az ExPASy (Expert Protein Analysis System) szervereit, melyek a proteomikai eszközök és adatbázisok központi erőforrása. A National Biomedical Research Foundation (NBRF) által a Georgetowni Egyetem Orvosi Központjában működtetett PIR a legrégebbi fehérjeszekvencia-adatbázisnak, Margaret Dayhoff először 1965-ben kiadott Atlas of Protein Sequence and Structure-jének utódja.[1] 2002-ben az EBI, a SIB és a PIR megalapították a UniProt-konzorciumot.[2]

A UniProt-adatbázis alapjai[szerkesztés]

A konzorcium tagjai a fehérjeadatbázis-fenntartásában és jelölésében szerepet játszik. 2003-ig az EBI és a SIB a Swiss-Prot és TrEMBL adatbázisokat, míg a PIR a Protein Sequence Database-t (PIR-PSD) működtette.[3][4][5] Ezen adatbázisok együtt léteztek eltérő fehérjeszekvencia-lefedettséggel és jelölési prioritásokkal.

A Swiss-Protot 1986-ban hozta létre Amos Bairoch doktori munkája során, a Svájci Bioinformatikai Intézet fejlesztette, később az Európai Bioinformatikai Intézetnél dolgozó Rolf Apweiler fejlesztette tovább.[6][7][8] A Swiss-Prot célja megbízható fehérjeszekvenciák biztosítása magas szintű jelöléssel (például a fehérje funkciójának, doménszerkezetének, poszttranszlációs módosulásainak, változatainak stb. leírásával), minél kisebb redundancia és minél nagyobb integráció mellett. Felismerve, hogy a szekvenciaadat a Swiss-Prot által kezelhetőnél gyorsabban keletkezett, létrehozták a TrEMBL-t (Translated EMBL Nucleotide Sequence Data Library) az automatikus jelölésekhez a Swiss-Protban nem szereplő fehérjéknek. Közben a PIR kezelte a PIR-PSD-t és kapcsolódó adatbázisait, például az iProClasst, mely szekvenciák és családok adatbázisa.

A konzorcium tagjai a UniProtot 2003 decemberében indították el.[9]

Szerveződés[szerkesztés]

A UniProt 4 magadatbázist tartalmaz, ezek a UniProtKB (részei a Swiss-Prot és a TrEMBL), a UniParc, a UniRef és a Proteome.

UniProtKB[szerkesztés]

A UniProt-tudásbázis (UniProtKB) részben szakértők által ellenőrzött fehérje-adatbázis, mely két részből áll, ezek a UniProtKB/Swiss-Prot (ellenőrzött, kézzel jelölt bejegyzésekkel) és a UniProtKB/TrEMBL (ellenőrizetlen, automatikusan jelölt bejegyzésekkel).[10] A UniProtKB/Swiss-Prot 2023_05 verziója 570 420 szekvenciát tartalmaz 206 321 560 aminosavval, 295 467 hivatkozásból. A UniProtKB/TrEMBL 2023_05 kiadása 251 131 639 szekvenciát tartalmaz, 88 223 298 202 aminosavval.[11]

UniProtKB/Swiss-Prot[szerkesztés]

A UniProtKB/Swiss-Prot kézzel ellenőrzött, nem redundáns fehérjeszekvecia-adatbázis. Tudományos irodalomból és biokurátor által kiértékelt számítógépes analízisből áll. Célja egy adott fehérjéről való összes ismert információ bemutatása. A jelölés gyakran van ellenőrizve a tudományos irodalomnak megfelelően. A kézi jelölés a fehérjeszekvencia és a tudományos irodalom részletes elemzését tartalmazza.[12]

Azonos gén és faj szekvenciái azonos bejegyzésbe kerülnek. A szekvenciák különbségei azonosítva, okuk (például alternatív splicing, természetes variáció, nem megfelelő iniciációs helyek, nem megfelelő exonhatár, kereteltolódás vagy azonosítatlan konfliktus) dokumentálva van. Számos szekvenciaelemző eszköz használatos a UniProtKB/Swiss-Prot-bejegyzések jelölésére. A számítógépes előrejelzések elemzése, a releváns eredmények kiválasztása kézzel történik. Előrejelzések például a poszttranszlációs módosulások, a transzmembrán domének, a topológia, a jelzőpeptidek, a doménazonosítás és a fehérjecsalád-besorolás.[12][13]

A releváns publikációk kereső adatbázisok, például a PubMed révén azonosíthatók. A tanulmányok teljes szövegét olvassák, információit kivonják, és a bejegyzéshez adják. A tudományos irodalomból származó jelölés például:[9][12][13]

A jelölt elemek minőség-ellenőrzésen mennek át a UniProtKB/Swiss-Protba kerülés előtt. Új adat elérhetővé válásakor a bejegyzések frissülnek.

UniProtKB/TrEMBL[szerkesztés]

A UniProtKB/TrEMBL magas minőségű számítógépesen elemzett rekordokat tartalmaz, automatikus jelöléssel. A megnövekedett adatáramlás miatt jött létre, mivel a kézi jelölési folyamat nem volt kiszélesíthető minden elérhető fehérjeszekvencia bevételére.[9] A jelölt kódoló szekvenciák az EMBL-Bank/GenBank/DDBJ nukleotidszekvencia-adatbázisban automatikusan feldolgozásra kerülnek és bekerülnek a UniProtKB/TrEMBL-be. A UniProtKB/TrEMBL tartalmaz még a PDB-ből és génelőrejelzésből, például Ensemblből, RefSeqből és CCDS-ből származó fehérjéket is.[14] 2021. július 22. óta tartalmaz az AlphaFold által előrejelzett harmadlagos és az Alphafold-multimer által előrejelzett negyedleges szerkezeteket is.[15][16]

UniParc[szerkesztés]

A UniProt Archive (UniParc) nem redundáns adatbázis az összes nyilvánosan elérheő fehérjeszekvencia-adatbázisból származó fehérjeszekvenciával.[17] A fehérjék számos eltérő forrásadatbázisban létezhetnek különböző példányokban egy adatbázisban. A redundancia elkerülése végett a UniParc minden szekvenciát egyszer tárol. Az azonos szekvenciák egybe tartoznak, függetlenül attól, mely fajhoz tartoznak. Minden szekvenciához stabil, egyedi azonosító (UPI) tartozik, lehetővé téve azonos fehérje eltérő forrásadatbázisokból való azonosítását. A UniParc jelöletlen fehérjeszekvenciákat tartalmaz. Az adatbázis-kereszthivatkozások lehetővé teszik a fehérjéről szóló további információ szerzését a forrásadatbázisokból. Ha a szekvenciaadat megváltozik a forrásban, ezt a UniParc követi, és a változások története archiválásra kerül.

Forrásadatbázisok[szerkesztés]

Jelenleg az alábbi nyilvános adatbázisokból tartalmaz a UniParc szekvenciákat:

UniRef[szerkesztés]

A UniProt Reference Clusters (UniRef) 3 UniProtKB- és UniParc-rekordokból álló fehérjeszekvencia-csoportokból álló adatbázisból áll.[20] A UniRef100 adatbázis azonos szekvenciákat és szekvenciarészeket egy UniRef-bejegyzésbe tesz. Egy fehérje szekvenciája, az egyesült elemek hozzáférési száma és a megfelelő UniProtKB- és UniParc-rekordok hivatkozásai találhatók meg. A UniRef100-szekvenciák a CD-HIT algoritmussal vannak csoportosítva a UniRef90-hez és UniRef50-hez.[20][21] Ezek a leghosszabb szekvenciához legalább 90%-ban, illetve 50%-ban hasonló szekvenciákat csoportosítanak. A csoportosítás csökkenti az adatbázisméretet, lehetővé téve gyorsabb szekvenciakereséseket.

Támogatás[szerkesztés]

A UniProtot a National Human Genome Research Institute, a National Institutes of Health (NIH), az Európai Bizottság, a svájci kormány (az oktatási és tudományos minisztériumon keresztül), a NIC-caBIG és az amerikai védelmi minisztérium támogatják.[10]

Jegyzetek[szerkesztés]

  1. Dayhoff, Margaret O. Atlas of protein sequence and structure. Silver Spring, Md: National Biomedical Research Foundation (1965) 
  2. 2002 Release: NHGRI Funds Global Protein Database. National Human Genome Research Institute (NHGRI) . [2015. szeptember 24-i dátummal az eredetiből archiválva]. (Hozzáférés: 2018. április 14.)
  3. O'Donovan, C. (2002). „High-quality protein knowledge resource: SWISS-PROT and TrEMBL”. Briefings in Bioinformatics 3 (3), 275–284. o. DOI:10.1093/bib/3.3.275. PMID 12230036.  
  4. Wu, C. H. (2003). „The Protein Information Resource”. Nucleic Acids Research 31 (1), 345–347. o. DOI:10.1093/nar/gkg040. PMID 12520019.  
  5. Boeckmann, B. (2003). „The SWISS-PROT protein knowledgebase and its supplement TrEMBL in 2003”. Nucleic Acids Research 31 (1), 365–370. o. DOI:10.1093/nar/gkg095. PMID 12520024.  
  6. Bairoch, A. (1996). „The SWISS-PROT protein sequence data bank and its new supplement TREMBL”. Nucleic Acids Research 24 (1), 21–25. o. DOI:10.1093/nar/24.1.21. PMID 8594581.  
  7. Bairoch, A. (2000). „Serendipity in bioinformatics, the tribulations of a Swiss bioinformatician through exciting times!”. Bioinformatics 16 (1), 48–64. o. DOI:10.1093/bioinformatics/16.1.48. PMID 10812477.  
  8. Séverine Altairac (2006. augusztus). „Naissance d’une banque de données: Interview du prof. Amos Bairoch”. Protéines à la Une. ISSN 1660-9824.  
  9. a b c (2004) „Protein sequence databases”. Current Opinion in Chemical Biology 8 (1), 76–80. o. DOI:10.1016/j.cbpa.2003.12.004. PMID 15036160.  
  10. a b (2009) „The Universal Protein Resource (UniProt) in 2010”. Nucleic Acids Research 38 (Database issue), D142–D148. o, Kiadó: UniProt. DOI:10.1093/nar/gkp846. PMID 19843607.  
  11. UniProtKB/Swiss-Prot Release 2023_05 statistics. web.expasy.org . (Hozzáférés: 2023. március 31.)
  12. a b c How do we manually annotate a UniProtKB entry?. www.uniprot.org . (Hozzáférés: 2018. április 14.)
  13. a b Apweiler, R. (2004). „UniProt: The Universal Protein knowledgebase”. Nucleic Acids Research 32 (90001), 115D–1119. o. DOI:10.1093/nar/gkh131. PMID 14681372.  
  14. Where do the UniProtKB protein sequences come from?. www.uniprot.org . (Hozzáférés: 2018. április 14.)
  15. Humphreys, Ian R. (2021). „Computed structures of core eukaryotic protein complexes”. Science 374 (6573), eabm4805. o. DOI:10.1126/science.abm4805. PMID 34762488.  
  16. Putting the power of AlphaFold into the world's hands. Deepmind . (Hozzáférés: 2021. július 24.)
  17. Leinonen, R. (2004). „UniProt archive”. Bioinformatics 20 (17), 3236–3237. o. DOI:10.1093/bioinformatics/bth191. PMID 15044231.  
  18. Protein Research Foundation
  19. TROME[halott link]
  20. a b Suzek, B. E. (2007). „UniRef: Comprehensive and non-redundant UniProt reference clusters”. Bioinformatics 23 (10), 1282–1288. o. DOI:10.1093/bioinformatics/btm098. PMID 17379688.  
  21. (2001) „Clustering of highly homologous sequences to reduce the size of large protein databases”. Bioinformatics 17 (3), 282–283. o. DOI:10.1093/bioinformatics/17.3.282. PMID 11294794.  

További információk[szerkesztés]