Bioinformatics, Biological Database, GenBank Biotechnology B.sc 3 year, Microbiology

डेटाबेस, बायोलॉजिकल डेटाबेस, GenBank

डेटाबेस का परिचय

डेटाबेस किसी भी प्रकार के डेटा को ठीक से संग्रहीत, खोज और पुनः प्राप्त करने के लिए एक सुविधाजनक प्रणाली है। यह एक प्रकार का इलेक्ट्रॉनिक फाइलिंग कैबिनेट है, जो कम्प्यूटरीकृत डेटा संग्रह के लिए रिपॉजिटरी या कंटेनर है। यह संबंधित डेटा का सरल और व्यवस्थित संग्रह है जिस तक कई उपयोगकर्ता पहुंच सकते हैं। यह जानकारी की विशाल मात्रा को संग्रहीत करने के लिए सुविधाजनक और कुशल विधि प्रदान करता है। यह खोज मानदंड की विविधता के द्वारा संग्रहीत जानकारी की आसान पुनर्प्राप्ति की अनुमति देता है। बड़ी मात्रा में डेटा पंक्तियाँ और कॉलम के रूप में स्टोर होता है। डेटाबेस लिंक विभिन्न विविध संसाधनों से जानकारी उत्पन्न करता है और विचाराधीन विषय का व्यापक ज्ञान प्रदान करता है। 


बायोलॉजिकल डेटाबेस सरल शब्दों में जैविक जानकारी का संग्रह/भंडारण है, जो कंप्यूटर पठनीय प्रपत्र में उपलब्ध होता है।जैविक डेटाबेस में न्यूक्लियोटाइड अनुक्रम, न्यूक्लियोटाइड संरचना, प्रोटीन अनुक्रम, प्रोटीन संरचना, जीन अभिव्यक्ति, प्रोटीन कार्य, संपूर्ण जीनोम अनुक्रम, प्रोटीन-प्रोटीन इंटरैक्शन और बहुत कुछ शामिल हैं। तो जैविक डेटाबेस लगातार डेटा की बड़ी संगठित संस्था है। 

बायोलॉजिकल डेटाबेस की विशेषताएँ और कार्य

  • बायोलॉजिकल डेटाबेस में विविध प्रकार की सूचना भंडार हो सकता है, जानकारी या तो फ़ाइल फॉर्म या रिलेशनल डेटाबेस के फॉर्म में हो सकती है।
  • बायोलॉजिकल डेटाबेस सर्च परिणाम को स्थानीय रूप से कंप्यूटर में सेव करने की सुविधा प्रदान करता है।
  • यह डेटाबेस के लिए वेब इंटरफ़ेस है जिसमें उपयोगकर्ता उपयुक्त कीवर्ड्स का उपयोग करके अपनी रुचि के अनुक्रमों या संरचनाओं को खोज और पुनः प्राप्त कर सकता है।
  • इस डेटाबेस के बीच क्रॉस रिफ्रेंसिंग होती है इसलिए एक डेटाबेस से दूसरे डेटाबेस में मूव करता है।
  • बायोलॉजिकल डेटाबेस बायोलॉजिकल प्रयोगों से परिणाम प्राप्त करता है और विश्व स्तर पर जानकारी उपलब्ध कराता है। यह सटीक है।
  • ये साहित्य और कई अन्य उपकरण विश्लेषण, क्वेरी और डेटा के वेसुअलाइजेशन के लिए संदर्भ प्रदान करते हैं।

बायोलॉजिकल डेटाबेस का वर्गीकरण


बायोलॉजिकल डेटाबेस मूल रूप से तीन प्रकार के होते हैं जो निम्नलिखित हैं - 

1. प्राथमिक डेटाबेस - 


प्राथमिक डेटाबेस प्राथमिक भंडारण क्षेत्र है। यह न्यूक्लिक एसिड, प्रोटीन अनुक्रम और जैविक मैक्रोमॉलिक्यूल्स की संरचना की जानकारी संग्रहीत करने के लिए प्राथमिक भंडार है। प्राथमिक डेटाबेस में मूल डेटा होता है क्योंकि शोधकर्ता अपने प्रयोगात्मक परिणामों को सीधे सबमिट करते हैं।

प्राथमिक डेटाबेस के उदाहरण - 


न्यूक्लियोटाइड अनुक्रम डेटाबेस के लिए GenBank, EMBL, DDBJ (ये मुख्य प्राथमिक डेटाबेस है)
प्रोटीन अनुक्रम डेटाबेस के लिए SWISS-PROT, PIR
प्रोटीन संरचना डेटाबेस के लिए PDB

2. द्वितीयक डेटाबेस


द्वितीयक डेटाबेस मैन्युअल रूप से या स्वचालित रूप से उत्पन्न होता है क्योंकि ये प्राथमिक रिपॉजिटरी के डेटा के विश्लेषण से प्राप्त अतिरिक्त जानकारी को शामिल करता है। सेकेंडरी डेटाबेस अलग-अलग जानकारी को अलग-अलग फॉर्मेट में रखता है।

द्वितीयक डेटाबेस के उदाहरण -


TrEMBL, PROSITE, Pfam, SCOP, CATH, PRINTS and BLOCKS

3. कम्पोजिट डेटाबेस


कम्पोजिट डेटाबेस में शामिल करने वाले डेटा को पहले वांछित मानदंड के अनुसार तुलना और फ़िल्टर किया जाता है। सरल शब्दों में, यह विभिन्न प्राथमिक डेटाबेस अनुक्रमों का संग्रह है और इसमें गैर-अनावश्यक डेटा शामिल है।

कम्पोजिट डेटाबेस के उदाहरण -


OWL, NRDB, BioSilico

डेटा के प्रकार के आधार पर बायोलॉजिकल डेटाबेस का वर्गीकरण


1. न्यूक्लियोटाइड अनुक्रम डेटाबेस - GenBank, DDBJ (DNA Data Bank of Japan), EST (Expressed Sequence Tags), STS (Sequence tagged Sites)

2. प्रोटीन अनुक्रम डेटाबेस - PIR (Protein Information Resource), SWISS-PROT, TrEMBL (Translation of EMBL Database)

3. संरचनात्मक डेटाबेस - NDB (Nucleotide Data Bank), PDB (Protein Data Bank), SCOP (Structural classification of Proteins), CATH (Class Architecture, Topology, Homology), BioMagResBank (Biological Magnetic Resonance Data Bank)

4. जैव रासायनिक डेटाबेस - KEGG (Kyoto Encyclopedia of Genes and Genomes), BODYMAP (यह मानव जीन का एक अभिव्यक्ति डेटाबेस है)

5. संपूर्ण जीनोम डेटाबेस - GDB (Genome Database), OMIM (Online Mendelian Inheritance in Man), MITOMAP (a Human Mitochondrial Genome Database)

न्यूक्लियोटाइड सीक्वेंस डेटाबेस

GenBank 

GenBank NCBI (राष्ट्रीय जैव प्रौद्योगिकी सूचना केंद्र) के डेटाबेस में उपलब्ध न्यूक्लियोटाइड (DNAऔर RNA) सीक्वेंस का संग्रह है और अंतर्राष्ट्रीय न्यूक्लियोटाइड सीक्वेंस सहयोग (INSC) का हिस्सा है। जिसमें DDBJ, EMBL, और NCBI USA शामिल हैं। NCBI की स्थापना 4 नवंबर 1988 को NLM (राष्ट्रीय चिकित्सा प्रयोगशाला) और राष्ट्रीय स्वास्थ्य संस्थान (NIH) USA के एक भाग के रूप में हुई थी। दैनिक आधार पर तीन सहयोगी संगठनों के बीच डेटा का आदान-प्रदान किया जा सकता है जिसमें GenBank सीक्वेंस डेटा प्रमुख योगदानकर्ता है। सीक्वेंस को डेटाबेस में सबमिट करने के लिए सबमिशन टूल का उपयोग होता है। BANKIT एक वर्ल्ड वाइड वेब आधारित सीक्वेंस सबमिशन टूल है, जिस सीक्वेंस के साथ होता है उसे सीधे GenBank में उपयोग करके सबमिट किया जा सकता है। एक और टूल NCBI द्वारा बनाया गया Sequin है ये सबमिशन सॉफ्टवेयर है जो विंडोज़ और यूनिक्स ऑपरेटिंग सिस्टम के लिए उपलब्ध है। इसे DDBJ और EMBL में सीक्वेंस के सबमिशन के लिए भी उपयोग किया जाता है।

GenBank फ्लैट फ़ाइल स्वरूप


GenBank फ्लैट फ़ाइल प्रारूप तीन खंड बनाए रखता है - 
1. हेडर
2. फीचर
3. सीक्वेंस एंट्री सेक्शन 

1. हेडर - 

हेडर सेक्शन लोकस के साथ शुरू होता है जिसका यूनिक डेटाबेस आइडेंटिफायर (AB000000) सीक्वेंस की लंबाई, या अवशेषों की संख्या (450 bp), न्यूक्लिक एसिड का प्रकार जैसे DNA RNA या mRNA (mRNA), अणु का प्रकार (रैखिक), स्रोत जीव (मानव), सबमिशन का डेटा (01-जून-2009) होता है।

लोकस के बाद वह परिभाषा आती है जो सीक्वेंस का वर्णन करती है।

एक्सेशन नंबर - यह अद्वितीय डेटाबेस पहचानकर्ता के समान निश्चित है और बदलता नहीं है। जब भी सीक्वेंस की कोई प्रविष्टि होती है तो अद्वितीय डेटाबेस पहचानकर्ता संख्या या एक्सेशन नंबर जारी की जाती है।

वर्जन नंबर (AB0000001) - यह एक्सेसन नंबर से अलग है सीक्वेंस एंट्री में कोई अपडेट होने पर उपयोग होता है। यह स्थिर नहीं है और जब भी सीक्वेंस अपडेट होता है तो हर बार वर्जन नंबरबदल जाती है।

कीवर्ड - यह रिकॉर्ड एंट्री से संबंधित विभिन्न शब्दों का वर्णन करता है।

2. फ़ीचर - 

फ़ीचर सेक्शन में जीन और जीन उत्पाद के बारे में विस्तृत जानकारी होती है। फ़ीचर कई कीवर्ड शामिल करता है जैसे CDS जिसका मतलब कोडिंग सीक्वेंस है। CDS क्षेत्र उन सीक्वेंस क्षेत्रों का वर्णन करता है जो अमीनो एसिड में अनुवादित हैं। ये इंट्रोन्स और एक्सॉन्स के बारे में भी जानकारी देते हैं।

3. सीक्वेंस एंट्री सेक्शन  - 

यह बेस काउंट लाइन से शुरू होता है, जिसमें सीक्वेंस में उपस्थित ATGC नाइट्रोजिनस बेसेस की संख्या शामिल होती है। ऑरिजिन से सीक्वेंस शुरू होता है और सीक्वेंस के अंत को "//" से दर्शाया जाता है।

GenBank का सब डिवीजन - 


डेटाबेस का बढ़ा हुआ आकार डेटा की विविधता के साथ युग्मित होता है। ये छोटे डिस्क्रीट डिविजन में स्प्लिट GenBank में कॉन्विनिएंट होता है। डिवीजन GenBank के बारे में जानकारी तीन शब्दों के कोड के द्वारा दिखाई गई है।

डिवीजन                                                                                                    सीक्वेंस सबसेट

PRI                                                                                                                Primates
ROD                                                                                                              Rodades
NAM                                                                                                             Mammals
VRD                                                                                                              Vertebrates
INP                                                                                                                Invertebrates
PLN                                                                                                               Plants, Fungi & Algae
BCD                                                                                                              Bacteria
RNA                                                                                                              RNA
VRL                                                                                                              Virus
PHG                                                                                                              Bacteriophage
SYN                                                                                                              Synthetic
UNA                                                                                                             Unannotated
ESF                                                                                                               Expressed Sequence Tags
ETS                                                                                                               Sequence Tagged Sites
TAD                                                                                                              Patede
GSS                                                                                                               Genome Serves Sequence



GenBank में सीक्वेंस की खोज के लिए 2 तरीके हैं- 


1. टेक्स्ट बेस कीवर्ड्स का उपयोग करना - यह एंट्रेज़ आधारित पुनर्प्राप्ति प्रणाली का उपयोग करना है। एंट्रेज़ NCBI का सर्च इंजन है।

2. डेटाबेस सीक्वेंस समानता सर्च टूल BLAST और FASTA का उपयोग करना।