डेटाबेस, बायोलॉजिकल डेटाबेस, GenBank
डेटाबेस का परिचय
डेटाबेस किसी भी प्रकार के डेटा को ठीक से संग्रहीत, खोज और पुनः प्राप्त करने के लिए एक सुविधाजनक प्रणाली है। यह एक प्रकार का इलेक्ट्रॉनिक फाइलिंग कैबिनेट है, जो कम्प्यूटरीकृत डेटा संग्रह के लिए रिपॉजिटरी या कंटेनर है। यह संबंधित डेटा का सरल और व्यवस्थित संग्रह है जिस तक कई उपयोगकर्ता पहुंच सकते हैं। यह जानकारी की विशाल मात्रा को संग्रहीत करने के लिए सुविधाजनक और कुशल विधि प्रदान करता है। यह खोज मानदंड की विविधता के द्वारा संग्रहीत जानकारी की आसान पुनर्प्राप्ति की अनुमति देता है। बड़ी मात्रा में डेटा पंक्तियाँ और कॉलम के रूप में स्टोर होता है। डेटाबेस लिंक विभिन्न विविध संसाधनों से जानकारी उत्पन्न करता है और विचाराधीन विषय का व्यापक ज्ञान प्रदान करता है।
बायोलॉजिकल डेटाबेस सरल शब्दों में जैविक जानकारी का संग्रह/भंडारण है, जो कंप्यूटर पठनीय प्रपत्र में उपलब्ध होता है।जैविक डेटाबेस में न्यूक्लियोटाइड अनुक्रम, न्यूक्लियोटाइड संरचना, प्रोटीन अनुक्रम, प्रोटीन संरचना, जीन अभिव्यक्ति, प्रोटीन कार्य, संपूर्ण जीनोम अनुक्रम, प्रोटीन-प्रोटीन इंटरैक्शन और बहुत कुछ शामिल हैं। तो जैविक डेटाबेस लगातार डेटा की बड़ी संगठित संस्था है।
बायोलॉजिकल डेटाबेस की विशेषताएँ और कार्य
- बायोलॉजिकल डेटाबेस में विविध प्रकार की सूचना भंडार हो सकता है, जानकारी या तो फ़ाइल फॉर्म या रिलेशनल डेटाबेस के फॉर्म में हो सकती है।
- बायोलॉजिकल डेटाबेस सर्च परिणाम को स्थानीय रूप से कंप्यूटर में सेव करने की सुविधा प्रदान करता है।
- यह डेटाबेस के लिए वेब इंटरफ़ेस है जिसमें उपयोगकर्ता उपयुक्त कीवर्ड्स का उपयोग करके अपनी रुचि के अनुक्रमों या संरचनाओं को खोज और पुनः प्राप्त कर सकता है।
- इस डेटाबेस के बीच क्रॉस रिफ्रेंसिंग होती है इसलिए एक डेटाबेस से दूसरे डेटाबेस में मूव करता है।
- बायोलॉजिकल डेटाबेस बायोलॉजिकल प्रयोगों से परिणाम प्राप्त करता है और विश्व स्तर पर जानकारी उपलब्ध कराता है। यह सटीक है।
- ये साहित्य और कई अन्य उपकरण विश्लेषण, क्वेरी और डेटा के वेसुअलाइजेशन के लिए संदर्भ प्रदान करते हैं।
बायोलॉजिकल डेटाबेस का वर्गीकरण
बायोलॉजिकल डेटाबेस मूल रूप से तीन प्रकार के होते हैं जो निम्नलिखित हैं -
1. प्राथमिक डेटाबेस -
प्राथमिक डेटाबेस प्राथमिक भंडारण क्षेत्र है। यह न्यूक्लिक एसिड, प्रोटीन अनुक्रम और जैविक मैक्रोमॉलिक्यूल्स की संरचना की जानकारी संग्रहीत करने के लिए प्राथमिक भंडार है। प्राथमिक डेटाबेस में मूल डेटा होता है क्योंकि शोधकर्ता अपने प्रयोगात्मक परिणामों को सीधे सबमिट करते हैं।
प्राथमिक डेटाबेस के उदाहरण -
न्यूक्लियोटाइड अनुक्रम डेटाबेस के लिए GenBank, EMBL, DDBJ (ये मुख्य प्राथमिक डेटाबेस है)
प्रोटीन अनुक्रम डेटाबेस के लिए SWISS-PROT, PIR
प्रोटीन संरचना डेटाबेस के लिए PDB
2. द्वितीयक डेटाबेस
द्वितीयक डेटाबेस मैन्युअल रूप से या स्वचालित रूप से उत्पन्न होता है क्योंकि ये प्राथमिक रिपॉजिटरी के डेटा के विश्लेषण से प्राप्त अतिरिक्त जानकारी को शामिल करता है। सेकेंडरी डेटाबेस अलग-अलग जानकारी को अलग-अलग फॉर्मेट में रखता है।
द्वितीयक डेटाबेस के उदाहरण -
TrEMBL, PROSITE, Pfam, SCOP, CATH, PRINTS and BLOCKS
3. कम्पोजिट डेटाबेस
कम्पोजिट डेटाबेस में शामिल करने वाले डेटा को पहले वांछित मानदंड के अनुसार तुलना और फ़िल्टर किया जाता है। सरल शब्दों में, यह विभिन्न प्राथमिक डेटाबेस अनुक्रमों का संग्रह है और इसमें गैर-अनावश्यक डेटा शामिल है।
कम्पोजिट डेटाबेस के उदाहरण -
OWL, NRDB, BioSilico
डेटा के प्रकार के आधार पर बायोलॉजिकल डेटाबेस का वर्गीकरण
1. न्यूक्लियोटाइड अनुक्रम डेटाबेस - GenBank, DDBJ (DNA Data Bank of Japan), EST (Expressed Sequence Tags), STS (Sequence tagged Sites)
2. प्रोटीन अनुक्रम डेटाबेस - PIR (Protein Information Resource), SWISS-PROT, TrEMBL (Translation of EMBL Database)
3. संरचनात्मक डेटाबेस - NDB (Nucleotide Data Bank), PDB (Protein Data Bank), SCOP (Structural classification of Proteins), CATH (Class Architecture, Topology, Homology), BioMagResBank (Biological Magnetic Resonance Data Bank)
4. जैव रासायनिक डेटाबेस - KEGG (Kyoto Encyclopedia of Genes and Genomes), BODYMAP (यह मानव जीन का एक अभिव्यक्ति डेटाबेस है)
5. संपूर्ण जीनोम डेटाबेस - GDB (Genome Database), OMIM (Online Mendelian Inheritance in Man), MITOMAP (a Human Mitochondrial Genome Database)
न्यूक्लियोटाइड सीक्वेंस डेटाबेस
GenBank
GenBank NCBI (राष्ट्रीय जैव प्रौद्योगिकी सूचना केंद्र) के डेटाबेस में उपलब्ध न्यूक्लियोटाइड (DNAऔर RNA) सीक्वेंस का संग्रह है और अंतर्राष्ट्रीय न्यूक्लियोटाइड सीक्वेंस सहयोग (INSC) का हिस्सा है। जिसमें DDBJ, EMBL, और NCBI USA शामिल हैं। NCBI की स्थापना 4 नवंबर 1988 को NLM (राष्ट्रीय चिकित्सा प्रयोगशाला) और राष्ट्रीय स्वास्थ्य संस्थान (NIH) USA के एक भाग के रूप में हुई थी। दैनिक आधार पर तीन सहयोगी संगठनों के बीच डेटा का आदान-प्रदान किया जा सकता है जिसमें GenBank सीक्वेंस डेटा प्रमुख योगदानकर्ता है। सीक्वेंस को डेटाबेस में सबमिट करने के लिए सबमिशन टूल का उपयोग होता है। BANKIT एक वर्ल्ड वाइड वेब आधारित सीक्वेंस सबमिशन टूल है, जिस सीक्वेंस के साथ होता है उसे सीधे GenBank में उपयोग करके सबमिट किया जा सकता है। एक और टूल NCBI द्वारा बनाया गया Sequin है ये सबमिशन सॉफ्टवेयर है जो विंडोज़ और यूनिक्स ऑपरेटिंग सिस्टम के लिए उपलब्ध है। इसे DDBJ और EMBL में सीक्वेंस के सबमिशन के लिए भी उपयोग किया जाता है।
GenBank फ्लैट फ़ाइल स्वरूप
GenBank फ्लैट फ़ाइल प्रारूप तीन खंड बनाए रखता है -
1. हेडर
2. फीचर
3. सीक्वेंस एंट्री सेक्शन
1. हेडर -
हेडर सेक्शन लोकस के साथ शुरू होता है जिसका यूनिक डेटाबेस आइडेंटिफायर (AB000000) सीक्वेंस की लंबाई, या अवशेषों की संख्या (450 bp), न्यूक्लिक एसिड का प्रकार जैसे DNA RNA या mRNA (mRNA), अणु का प्रकार (रैखिक), स्रोत जीव (मानव), सबमिशन का डेटा (01-जून-2009) होता है।
लोकस के बाद वह परिभाषा आती है जो सीक्वेंस का वर्णन करती है।
एक्सेशन नंबर - यह अद्वितीय डेटाबेस पहचानकर्ता के समान निश्चित है और बदलता नहीं है। जब भी सीक्वेंस की कोई प्रविष्टि होती है तो अद्वितीय डेटाबेस पहचानकर्ता संख्या या एक्सेशन नंबर जारी की जाती है।
वर्जन नंबर (AB0000001) - यह एक्सेसन नंबर से अलग है सीक्वेंस एंट्री में कोई अपडेट होने पर उपयोग होता है। यह स्थिर नहीं है और जब भी सीक्वेंस अपडेट होता है तो हर बार वर्जन नंबरबदल जाती है।
कीवर्ड - यह रिकॉर्ड एंट्री से संबंधित विभिन्न शब्दों का वर्णन करता है।
2. फ़ीचर -
फ़ीचर सेक्शन में जीन और जीन उत्पाद के बारे में विस्तृत जानकारी होती है। फ़ीचर कई कीवर्ड शामिल करता है जैसे CDS जिसका मतलब कोडिंग सीक्वेंस है। CDS क्षेत्र उन सीक्वेंस क्षेत्रों का वर्णन करता है जो अमीनो एसिड में अनुवादित हैं। ये इंट्रोन्स और एक्सॉन्स के बारे में भी जानकारी देते हैं।
3. सीक्वेंस एंट्री सेक्शन -
यह बेस काउंट लाइन से शुरू होता है, जिसमें सीक्वेंस में उपस्थित ATGC नाइट्रोजिनस बेसेस की संख्या शामिल होती है। ऑरिजिन से सीक्वेंस शुरू होता है और सीक्वेंस के अंत को "//" से दर्शाया जाता है।
GenBank का सब डिवीजन -
डेटाबेस का बढ़ा हुआ आकार डेटा की विविधता के साथ युग्मित होता है। ये छोटे डिस्क्रीट डिविजन में स्प्लिट GenBank में कॉन्विनिएंट होता है। डिवीजन GenBank के बारे में जानकारी तीन शब्दों के कोड के द्वारा दिखाई गई है।
डिवीजन सीक्वेंस सबसेट
PRI Primates
ROD Rodades
NAM Mammals
VRD Vertebrates
INP Invertebrates
PLN Plants, Fungi & Algae
BCD Bacteria
RNA RNA
VRL Virus
PHG Bacteriophage
SYN Synthetic
UNA Unannotated
ESF Expressed Sequence Tags
ETS Sequence Tagged Sites
TAD Patede
GSS Genome Serves Sequence
GenBank में सीक्वेंस की खोज के लिए 2 तरीके हैं-
1. टेक्स्ट बेस कीवर्ड्स का उपयोग करना - यह एंट्रेज़ आधारित पुनर्प्राप्ति प्रणाली का उपयोग करना है। एंट्रेज़ NCBI का सर्च इंजन है।
2. डेटाबेस सीक्वेंस समानता सर्च टूल BLAST और FASTA का उपयोग करना।