Study Point: Bioinformatics, Biological Database, GenBank Biotechnology B.sc 3 year, Microbiology

डेटाबेस, बायोलॉजिकल डेटाबेस, GenBank

डेटाबेस का परिचय

डेटाबेस किसी भी प्रकार के डेटा को ठीक से संग्रहीत, खोज और पुनः प्राप्त करने के लिए एक सुविधाजनक प्रणाली है। यह एक प्रकार का इलेक्ट्रॉनिक फाइलिंग कैबिनेट है, जो कम्प्यूटरीकृत डेटा संग्रह के लिए रिपॉजिटरी या कंटेनर है। यह संबंधित डेटा का सरल और व्यवस्थित संग्रह है जिस तक कई उपयोगकर्ता पहुंच सकते हैं। यह जानकारी की विशाल मात्रा को संग्रहीत करने के लिए सुविधाजनक और कुशल विधि प्रदान करता है। यह खोज मानदंड की विविधता के द्वारा संग्रहीत जानकारी की आसान पुनर्प्राप्ति की अनुमति देता है। बड़ी मात्रा में डेटा पंक्तियाँ और कॉलम के रूप में स्टोर होता है। डेटाबेस लिंक विभिन्न विविध संसाधनों से जानकारी उत्पन्न करता है और विचाराधीन विषय का व्यापक ज्ञान प्रदान करता है।

बायोलॉजिकल डेटाबेस सरल शब्दों में जैविक जानकारी का संग्रह/भंडारण है, जो कंप्यूटर पठनीय प्रपत्र में उपलब्ध होता है।जैविक डेटाबेस में न्यूक्लियोटाइड अनुक्रम, न्यूक्लियोटाइड संरचना, प्रोटीन अनुक्रम, प्रोटीन संरचना, जीन अभिव्यक्ति, प्रोटीन कार्य, संपूर्ण जीनोम अनुक्रम, प्रोटीन-प्रोटीन इंटरैक्शन और बहुत कुछ शामिल हैं। तो जैविक डेटाबेस लगातार डेटा की बड़ी संगठित संस्था है।

बायोलॉजिकल डेटाबेस की विशेषताएँ और कार्य

बायोलॉजिकल डेटाबेस में विविध प्रकार की सूचना भंडार हो सकता है, जानकारी या तो फ़ाइल फॉर्म या रिलेशनल डेटाबेस के फॉर्म में हो सकती है।

बायोलॉजिकल डेटाबेस सर्च परिणाम को स्थानीय रूप से कंप्यूटर में सेव करने की सुविधा प्रदान करता है।

यह डेटाबेस के लिए वेब इंटरफ़ेस है जिसमें उपयोगकर्ता उपयुक्त कीवर्ड्स का उपयोग करके अपनी रुचि के अनुक्रमों या संरचनाओं को खोज और पुनः प्राप्त कर सकता है।

इस डेटाबेस के बीच क्रॉस रिफ्रेंसिंग होती है इसलिए एक डेटाबेस से दूसरे डेटाबेस में मूव करता है।

बायोलॉजिकल डेटाबेस बायोलॉजिकल प्रयोगों से परिणाम प्राप्त करता है और विश्व स्तर पर जानकारी उपलब्ध कराता है। यह सटीक है।

ये साहित्य और कई अन्य उपकरण विश्लेषण, क्वेरी और डेटा के वेसुअलाइजेशन के लिए संदर्भ प्रदान करते हैं।

बायोलॉजिकल डेटाबेस का वर्गीकरण

बायोलॉजिकल डेटाबेस मूल रूप से तीन प्रकार के होते हैं जो निम्नलिखित हैं -

1. प्राथमिक डेटाबेस -

प्राथमिक डेटाबेस प्राथमिक भंडारण क्षेत्र है। यह न्यूक्लिक एसिड, प्रोटीन अनुक्रम और जैविक मैक्रोमॉलिक्यूल्स की संरचना की जानकारी संग्रहीत करने के लिए प्राथमिक भंडार है। प्राथमिक डेटाबेस में मूल डेटा होता है क्योंकि शोधकर्ता अपने प्रयोगात्मक परिणामों को सीधे सबमिट करते हैं।

प्राथमिक डेटाबेस के उदाहरण -

न्यूक्लियोटाइड अनुक्रम डेटाबेस के लिए GenBank, EMBL, DDBJ (ये मुख्य प्राथमिक डेटाबेस है)

प्रोटीन अनुक्रम डेटाबेस के लिए SWISS-PROT, PIR

प्रोटीन संरचना डेटाबेस के लिए PDB

2. द्वितीयक डेटाबेस

द्वितीयक डेटाबेस मैन्युअल रूप से या स्वचालित रूप से उत्पन्न होता है क्योंकि ये प्राथमिक रिपॉजिटरी के डेटा के विश्लेषण से प्राप्त अतिरिक्त जानकारी को शामिल करता है। सेकेंडरी डेटाबेस अलग-अलग जानकारी को अलग-अलग फॉर्मेट में रखता है।

द्वितीयक डेटाबेस के उदाहरण -

TrEMBL, PROSITE, Pfam, SCOP, CATH, PRINTS and BLOCKS

3. कम्पोजिट डेटाबेस

कम्पोजिट डेटाबेस में शामिल करने वाले डेटा को पहले वांछित मानदंड के अनुसार तुलना और फ़िल्टर किया जाता है। सरल शब्दों में, यह विभिन्न प्राथमिक डेटाबेस अनुक्रमों का संग्रह है और इसमें गैर-अनावश्यक डेटा शामिल है।

कम्पोजिट डेटाबेस के उदाहरण -

OWL, NRDB, BioSilico

डेटा के प्रकार के आधार पर बायोलॉजिकल डेटाबेस का वर्गीकरण

1. न्यूक्लियोटाइड अनुक्रम डेटाबेस - GenBank, DDBJ (DNA Data Bank of Japan), EST (Expressed Sequence Tags), STS (Sequence tagged Sites)

2. प्रोटीन अनुक्रम डेटाबेस - PIR (Protein Information Resource), SWISS-PROT, TrEMBL (Translation of EMBL Database)

3. संरचनात्मक डेटाबेस - NDB (Nucleotide Data Bank), PDB (Protein Data Bank), SCOP (Structural classification of Proteins), CATH (Class Architecture, Topology, Homology), BioMagResBank (Biological Magnetic Resonance Data Bank)

4. जैव रासायनिक डेटाबेस - KEGG (Kyoto Encyclopedia of Genes and Genomes), BODYMAP (यह मानव जीन का एक अभिव्यक्ति डेटाबेस है)

5. संपूर्ण जीनोम डेटाबेस - GDB (Genome Database), OMIM (Online Mendelian Inheritance in Man), MITOMAP (a Human Mitochondrial Genome Database)

न्यूक्लियोटाइड सीक्वेंस डेटाबेस

GenBank

GenBank NCBI (राष्ट्रीय जैव प्रौद्योगिकी सूचना केंद्र) के डेटाबेस में उपलब्ध न्यूक्लियोटाइड (DNAऔर RNA) सीक्वेंस का संग्रह है और अंतर्राष्ट्रीय न्यूक्लियोटाइड सीक्वेंस सहयोग (INSC) का हिस्सा है। जिसमें DDBJ, EMBL, और NCBI USA शामिल हैं। NCBI की स्थापना 4 नवंबर 1988 को NLM (राष्ट्रीय चिकित्सा प्रयोगशाला) और राष्ट्रीय स्वास्थ्य संस्थान (NIH) USA के एक भाग के रूप में हुई थी। दैनिक आधार पर तीन सहयोगी संगठनों के बीच डेटा का आदान-प्रदान किया जा सकता है जिसमें GenBank सीक्वेंस डेटा प्रमुख योगदानकर्ता है। सीक्वेंस को डेटाबेस में सबमिट करने के लिए सबमिशन टूल का उपयोग होता है। BANKIT एक वर्ल्ड वाइड वेब आधारित सीक्वेंस सबमिशन टूल है, जिस सीक्वेंस के साथ होता है उसे सीधे GenBank में उपयोग करके सबमिट किया जा सकता है। एक और टूल NCBI द्वारा बनाया गया Sequin है ये सबमिशन सॉफ्टवेयर है जो विंडोज़ और यूनिक्स ऑपरेटिंग सिस्टम के लिए उपलब्ध है। इसे DDBJ और EMBL में सीक्वेंस के सबमिशन के लिए भी उपयोग किया जाता है।

GenBank फ्लैट फ़ाइल स्वरूप

GenBank फ्लैट फ़ाइल प्रारूप तीन खंड बनाए रखता है -

1. हेडर

2. फीचर

3. सीक्वेंस एंट्री सेक्शन

1. हेडर -

हेडर सेक्शन लोकस के साथ शुरू होता है जिसका यूनिक डेटाबेस आइडेंटिफायर (AB000000) सीक्वेंस की लंबाई, या अवशेषों की संख्या (450 bp), न्यूक्लिक एसिड का प्रकार जैसे DNA RNA या mRNA (mRNA), अणु का प्रकार (रैखिक), स्रोत जीव (मानव), सबमिशन का डेटा (01-जून-2009) होता है।

लोकस के बाद वह परिभाषा आती है जो सीक्वेंस का वर्णन करती है।

एक्सेशन नंबर - यह अद्वितीय डेटाबेस पहचानकर्ता के समान निश्चित है और बदलता नहीं है। जब भी सीक्वेंस की कोई प्रविष्टि होती है तो अद्वितीय डेटाबेस पहचानकर्ता संख्या या एक्सेशन नंबर जारी की जाती है।

वर्जन नंबर (AB0000001) - यह एक्सेसन नंबर से अलग है सीक्वेंस एंट्री में कोई अपडेट होने पर उपयोग होता है। यह स्थिर नहीं है और जब भी सीक्वेंस अपडेट होता है तो हर बार वर्जन नंबरबदल जाती है।

कीवर्ड - यह रिकॉर्ड एंट्री से संबंधित विभिन्न शब्दों का वर्णन करता है।

2. फ़ीचर -

फ़ीचर सेक्शन में जीन और जीन उत्पाद के बारे में विस्तृत जानकारी होती है। फ़ीचर कई कीवर्ड शामिल करता है जैसे CDS जिसका मतलब कोडिंग सीक्वेंस है। CDS क्षेत्र उन सीक्वेंस क्षेत्रों का वर्णन करता है जो अमीनो एसिड में अनुवादित हैं। ये इंट्रोन्स और एक्सॉन्स के बारे में भी जानकारी देते हैं।

3. सीक्वेंस एंट्री सेक्शन -

यह बेस काउंट लाइन से शुरू होता है, जिसमें सीक्वेंस में उपस्थित ATGC नाइट्रोजिनस बेसेस की संख्या शामिल होती है। ऑरिजिन से सीक्वेंस शुरू होता है और सीक्वेंस के अंत को "//" से दर्शाया जाता है।

GenBank का सब डिवीजन -

डेटाबेस का बढ़ा हुआ आकार डेटा की विविधता के साथ युग्मित होता है। ये छोटे डिस्क्रीट डिविजन में स्प्लिट GenBank में कॉन्विनिएंट होता है। डिवीजन GenBank के बारे में जानकारी तीन शब्दों के कोड के द्वारा दिखाई गई है।

डिवीजन सीक्वेंस सबसेट

PRI Primates

ROD Rodades

NAM Mammals

VRD Vertebrates

INP Invertebrates

PLN Plants, Fungi & Algae

BCD Bacteria

RNA RNA

VRL Virus

PHG Bacteriophage

SYN Synthetic

UNA Unannotated

ESF Expressed Sequence Tags

ETS Sequence Tagged Sites

TAD Patede

GSS Genome Serves Sequence

GenBank में सीक्वेंस की खोज के लिए 2 तरीके हैं-

1. टेक्स्ट बेस कीवर्ड्स का उपयोग करना - यह एंट्रेज़ आधारित पुनर्प्राप्ति प्रणाली का उपयोग करना है। एंट्रेज़ NCBI का सर्च इंजन है।

2. डेटाबेस सीक्वेंस समानता सर्च टूल BLAST और FASTA का उपयोग करना।

Pages

Bioinformatics, Biological Database, GenBank Biotechnology B.sc 3 year, Microbiology