生命科學國外重要數據庫

瀏覽次數：6419　發布日期：2009-2-4　來源：本站　僅供參考，謝絕轉載，否則責任自負

EMBL數據庫結構

EMBL數據庫的基本單位也是序列條目，包括核甘酸堿基排列順序和注釋兩部分。序列條目由字段組成，每個字段由標識字起始，后面為該字段的具體說明。有些字段又分若干次子字段，以次標識字或特性表說明符開始，最后以雙斜杠“//”作本序列條目結束標記。
條目的關鍵字包括ID（序列名稱），DE（序列簡單說明），AC（序列編號），SV（序列版本號），KW（與序列相關的關鍵詞），OS（序列來源的物種名），OC（序列來源的物種學名和分類學位置），RN（相關文獻編號或遞交序列的注冊信息），RA（相關文獻作者或遞交序列的作者），RT（相關文獻題目），RL（相關文獻雜志名或遞交序列的作者單位），RX（相關文獻　Mediline引文代碼），RC（相關文獻注釋），RP（相關文獻其他注釋），CC（關于序列的注釋信息），DR（相關數據庫交叉引用號），FH（序列特征表起始），FT（序列特征表子項），SQ（堿基種類統計數）。

GenBank數據庫結構
完整的GenBank數據庫包括序列文件，索引文件以及其它有關文件。索引文件是根據數據庫中作者、參考文獻等建立的，用于數據庫查詢。GenPept是由GenBank中的核酸序列翻譯而得到的蛋白質序列數據庫，其數據格式為FastA。
GenBank中最常用的是序列文件。序列文件的基本單位是序列條目，包括核苷酸堿基排列順序和注釋兩部分。目前，許多生物信息資源中心通過計算機網絡提供該數據庫文件。下面，我們介紹序列文件的結構。
GenBank序列文件由單個的序列條目組成。序列條目由字段組成，每個字段由關鍵字起始，后面為該字段的具體說明。有些字段又分若干次子字段，以次關鍵字或特性表說明符開始。每個序列條目以雙斜杠“//”作結束標記。序列條目的格式非常重要，關鍵字從第一列開始，次關鍵字從第三列開始，特性表說明符從第五列開始。每個字段可以占一行，也可以占若干行。若一行中寫不下時，繼續行以空格開始。
序列條目的關鍵字包括LOCUS (代碼)，DEFINITION (說明)，ACCESSION (編號)，NID符(核酸標識)，KEYWORDS (關鍵詞)，SOURCE (數據來源)，REFERENCE (文獻)，FEATURES (特性表)，BASE COUNT (堿基組成)及ORIGIN (堿基排列順序)。先版的核酸序列數據庫將引入新的關鍵詞SV (序列版本號)，用“編號.版本號”表示，并取代關鍵詞NID。
LOCUS (代碼)：是該序列條目的標記，或者說標識符，蘊涵這個序列的功能。例如，圖4.1中所示的HUMCYCLOX表示人的環氧化酶cyclooxygenase。該字段還包括其它相關內容，如序列長度、類型、種屬來源以及錄入日期等。說明字段是有關這一序列的簡單描述，如本例為人環氧化酶-2的mRNA全序列。
ACCESSION (編號)：具有唯一性和永久性，如本例中代碼M90100用來表示上述人環氧化酶-2的mRNA序列，在文獻中引用這個序列時，應該以此編號為準。
KEYWORDS (關鍵詞)字段：由該序列的提交者提供，包括該序列的基因產物以及其它相關信息，如本例中環氧化酶-2 (cyclooxygenase-2)，前列腺素合成酶(prostaglandin synthase)。
SOURCE (數據來源)字段：說明該序列是從什么生物體、什么組織得到的，如本例中人臍帶血(umbilical vein)。次關鍵字ORGANISM (種屬)指出該生物體的分類學地位，如本例人、真核生物等等(詳見圖4.1)。

REFERENCE (文獻)字段：說明該序列中的相關文獻，包括AUTHORS (作者)，TITLE (題目)及JOURNAL (雜志名)等，以次關鍵詞列出。該字段中還列出醫學文獻摘要數據庫MEDLINE的代碼。該代碼實際上是個超文本鏈接，點擊它可以直接調用上述文獻摘要。一個序列可以有多篇文獻，以不同序號表示，并給出該序列中的哪一部分與文獻有關。

FEATURES (特性表)：具有特定的格式，用來詳細描述序列特性。特性表中帶有‘/db-xref/’標志的字符可以連接到其它數據庫，如本例中的分類數據庫（taxon 9606），以及蛋白質序列數據庫（PID：g181254）。序列中各部分的位置都在表中標明，5’非編碼區(1-97)，編碼區(98-1912)，3’非編碼區(1913-3387)，多聚腺苷酸重復區域(3367-3374)，等等。翻譯所得信號肽以及最終蛋白質產物也都有所說明。當然，這個例子只是特性表的部分注釋信息，但已經足以說明其詳細程度。
接下來是堿基含量字段，給出序列中的堿組成，如本例中1010個A，712個C，633個G，1032個T。ORIGIN行是序列的引導行，接下來便是堿基序列，以雙斜杠行“//”結束。

其它常用核酸序列數據庫
dbEST數據庫專門收集EST數據，該數據庫有自己的格式，包括識別符、代碼、序列數據以及dbEST的注釋摘要，也按DNA的種類分成了若干子數據庫。1998年5月8日版的dbEST共包括1.6ⅹ106條EST。其中有1百萬條人的EST，30萬條小鼠和大鼠的EST。

GSDB是基因組序列數據庫（Genome Sequence Data Base），由美國新墨西哥州Santa Fe的國家基因組資源中心創建。GSDB收集、管理并且發布完整的DNA序列及其相關信息，以滿足基因組測序中心需要。該數據庫采用服務器-客戶機關系數據庫模式，大規模測序機構可以通過計算機網絡向服務器提交數據，并在發送之前對數據進行檢查，以確保數據的質量。

GSDB數據庫中條目的格式與GenBank中的基本一致，主要區別是GSDB數據庫中增加了GSDBID識別符。

GSDB數據庫可以通過萬維網查詢，也可以使用服務器-客戶機關系數據庫方式查詢。無論用哪種方法，熟悉數據庫結構化查詢語言SQL，對更好地使用GSDB數據庫會有所幫助。
人類基因組計劃的首要任務是對人類基因組進行全序列測定，整個基因組估計有30億個堿基對，其中大約3%可以編碼蛋白質，其余部分的生物學功能還不清楚。轉錄圖譜可以把基因組中能夠編碼蛋白質的部分集中起來，因此是一種重要的數據資源。
UniGene試圖通過計算機程序對GeneBank中的序列數據進行適當處理，剔除冗余部分，將同一基因的序列，包括EST序列片段搜集到一起，以便研究基因的轉錄圖譜。UniGene除了包括人的基因外，也包括小鼠、大鼠等其它模式生物的基因，而下一章將要介紹的HGI數據庫只包括人的基因。該數據庫的標題行（TITLE）給出基因的名稱和簡單說明，表達部位行（EXPRESS）指出該基因在什么組織中表達以及在基因圖譜中的位置等。此外，列出該基因在核酸序列數據庫GenBank或EMBL和蛋白質序列數據庫SWISS-PROT中的編號的超文本鏈接。

UniGene中部分條目包括已知基因序列，而有些條目則僅有新測得的EST序列片段。這就意味著，這些EST序列所對應的基因尚未搞清，可以用來發現新基因。在描繪基因圖譜及大規模基因表達分析等研究中，UniGene也可以幫助實驗設計者選擇試劑。

UniGene可以通過NCBI或SRS系統訪問。

發布者：上海伯豪生物技術有限公司
聯系電話：021-58955370
E-mail：market@shbio.com

【點擊可查看上海伯豪生物技術有限公司相關產品】

標簽：生命科學數據庫介紹

分享到：QQ空間新浪微博騰訊微博微信

【所有文章】【本類新聞】【相關產品】【關閉窗口】

本類文章

本類新聞

久热久草在线_一一高清视频在线观看_在线观看91av_久草免费在线观看视频_国产精品午夜无码A体验区_国产一级高清

生命科學國外重要數據庫