美國(guó)國(guó)家生物技術(shù)信息中心的基因表達(dá)數(shù)據(jù)庫(kù)(GEO)項(xiàng)目是為了應(yīng)對(duì)高通量基因表達(dá)數(shù)據(jù)公共存儲(chǔ)庫(kù)日益增長(zhǎng)的需求而發(fā)起的?;虮磉_(dá)數(shù)據(jù)庫(kù)(GEO)提供了靈活和開(kāi)放的設(shè)計(jì),便于從高通量基因表達(dá)和基因組雜交實(shí)驗(yàn)中提交、存儲(chǔ)和檢索不同類型的數(shù)據(jù)集?;虮磉_(dá)數(shù)據(jù)庫(kù)(GEO)的目的不是要取代內(nèi)部的基因表達(dá)數(shù)據(jù)庫(kù),這些數(shù)據(jù)庫(kù)受益于連貫的數(shù)據(jù)集,并且構(gòu)建這些數(shù)據(jù)庫(kù)是為了促進(jìn)特定的分析方法,而是通過(guò)充當(dāng)?shù)谌?jí)中央數(shù)據(jù)分發(fā)中心來(lái)補(bǔ)充這些數(shù)據(jù)庫(kù)?;虮磉_(dá)數(shù)據(jù)庫(kù)(GEO)的三個(gè)核心數(shù)據(jù)實(shí)體是平臺(tái)、樣本和系列,設(shè)計(jì)時(shí)考慮到了基因表達(dá)和基因組雜交實(shí)驗(yàn)。從本質(zhì)上講,平臺(tái)是一系列探針,它們定義了可以檢測(cè)到的分子集。一個(gè)樣本描述了正在被探測(cè)的一組分子,并引用了用于生成其分子豐度數(shù)據(jù)的單一平臺(tái)。一系列將樣本組織成有意義的數(shù)據(jù)集,這些數(shù)據(jù)集構(gòu)成了一個(gè)實(shí)驗(yàn)。基因表達(dá)數(shù)據(jù)庫(kù)(GEO)可通過(guò)萬(wàn)維網(wǎng)公開(kāi)訪問(wèn)。
基因表達(dá)數(shù)據(jù)庫(kù)(GEO)將數(shù)據(jù)分成三個(gè)主要組件,平臺(tái)、樣本和系列,每個(gè)組件都在關(guān)系數(shù)據(jù)庫(kù)中訪問(wèn)(即給定唯一和恒定的標(biāo)識(shí)符)。為了實(shí)現(xiàn)開(kāi)放和靈活的設(shè)計(jì),允許存儲(chǔ)和檢索非常不同的數(shù)據(jù)類型,數(shù)據(jù)沒(méi)有在數(shù)據(jù)庫(kù)中完全細(xì)化。取而代之的是,為每個(gè)平臺(tái)和每個(gè)示例存儲(chǔ)制表符分隔的ASCII表。該表由多個(gè)列以及相應(yīng)的列標(biāo)題名稱組成。此表中的數(shù)據(jù)目前部分提取用于編制索引,但可能會(huì)進(jìn)一步提取以進(jìn)行更廣泛的搜索和檢索。此外,提交者可提供任意數(shù)量的補(bǔ)充列,以包括提交者定義的附加信息。
平臺(tái)的實(shí)例本質(zhì)上是一系列探針,它們定義了在利用該平臺(tái)的任何實(shí)驗(yàn)中可以檢測(cè)到的分子集。例如,平臺(tái)數(shù)據(jù)表可以包含標(biāo)識(shí)每個(gè)探針(SPOT)的位置和生物試劑含量的GEO定義的列,諸如GenBank登錄號(hào)、開(kāi)放閱讀框架(ORF)名稱和克隆識(shí)別符,以及提交者定義的列。平臺(tái)登錄號(hào)有一個(gè)‘GPL’前綴。
一個(gè)樣本的實(shí)例描述了正在被探測(cè)的一組分子的派生,并利用平臺(tái)來(lái)產(chǎn)生分子豐度數(shù)據(jù)。每個(gè)樣本都有且只能有一個(gè)必須預(yù)先定義的父平臺(tái)。例如,樣本數(shù)據(jù)表可以包含指示在其平臺(tái)中定義的相應(yīng)斑點(diǎn)的最終相關(guān)豐度值的列,以及任何其他由GEO定義的(例如,原始信號(hào)、背景信號(hào))和提交者定義的列。樣本登錄號(hào)有一個(gè)‘GSM’前綴。
序列的實(shí)例將樣本組織成組成實(shí)驗(yàn)的有意義的數(shù)據(jù)集,并由共同的屬性綁定在一起。系列登錄號(hào)有一個(gè)‘GSE’前綴。
對(duì)于新提交的和更新的提交,有兩種通信模式可用,即交互或直接存放。交互式Web表單界面路線簡(jiǎn)單明了,最適合偶爾提交數(shù)量相對(duì)較少的樣本。通過(guò)直接存放簡(jiǎn)單總括格式(SOFT)的文件,可以將大量提交的大量數(shù)據(jù)集迅速并入地球觀測(cè)組織。SOFT是一種基于行的ASCII文本格式,允許在一個(gè)文件中表示多個(gè)GEO平臺(tái)、樣本和系列。在Soft中,元數(shù)據(jù)顯示為標(biāo)簽-值對(duì),并與平臺(tái)和示例的制表符分隔的文本表相關(guān)聯(lián)。Soft的設(shè)計(jì)使其易于使用現(xiàn)成的行掃描軟件進(jìn)行操作,并且可以非常容易地從電子表格、數(shù)據(jù)庫(kù)和分析軟件中生成或?qū)肫渲?。有關(guān)SOFT和提交過(guò)程的更多信息,可從網(wǎng)站獲得。
提交可以私下保存最多6個(gè)月;這項(xiàng)政策允許數(shù)據(jù)發(fā)布與稿件發(fā)布一致。這些提交的材料有一個(gè)最終的加入號(hào),可能會(huì)在出版物中引用。在這一點(diǎn)上,提交的文件不是經(jīng)過(guò)整理的,而是經(jīng)過(guò)人工掃描,以確保滿足最低基本要求。通過(guò)使用數(shù)據(jù)表中的標(biāo)準(zhǔn)列標(biāo)題并提供足夠的補(bǔ)充信息,使數(shù)據(jù)對(duì)其他人有用完全取決于提交者。
搜索和檢索
在編寫(xiě)本報(bào)告時(shí),僅通過(guò)登錄號(hào)就可以檢索完整的平臺(tái)、樣本和系列提交的材料。對(duì)GEO中的數(shù)據(jù)進(jìn)行了廣泛的索引和鏈接,并可通過(guò)名為Entrez ProbeSet的新Entrez數(shù)據(jù)庫(kù)進(jìn)行查詢。這個(gè)數(shù)據(jù)庫(kù)的Web界面使用與其他流行的NCBI資源(如PubMed和GenBank)相似的索引和鏈接引擎。與任何其他Entrez數(shù)據(jù)庫(kù)一樣,可以輸入一個(gè)簡(jiǎn)單的布爾短語(yǔ),并將其限制為任何數(shù)量的受支持屬性字段。匹配項(xiàng)鏈接到完整的GEO條目以及其他Entrez數(shù)據(jù)庫(kù)--目前是核苷酸、分類和PubMed-以及相關(guān)的Entrez ProbeSet條目。Entrez ProbeSet可通過(guò)Entrez網(wǎng)站作為用于選擇要查詢的Entrez數(shù)據(jù)庫(kù)的下拉菜單之一進(jìn)行訪問(wèn)。
基因表達(dá)數(shù)據(jù)庫(kù)(GEO)正在不斷開(kāi)發(fā),目的是改進(jìn)其索引、鏈接、搜索和顯示能力,以便能夠進(jìn)行更有力的數(shù)據(jù)挖掘。作為GEO儲(chǔ)存庫(kù)的擴(kuò)展,我們目前正在開(kāi)發(fā)一個(gè)完全細(xì)化的豐度測(cè)量數(shù)據(jù)庫(kù),該數(shù)據(jù)庫(kù)將允許查詢和檢索單個(gè)豐度測(cè)量結(jié)果。然而,在當(dāng)前高通量基因表達(dá)和基因組雜交實(shí)驗(yàn)的復(fù)雜性和快速發(fā)展帶來(lái)的限制下,豐度測(cè)量可能只在類似派生的小組數(shù)據(jù)集內(nèi)具有可比性。我們計(jì)劃利用這些可比較的數(shù)據(jù)子集,以便盡可能多地查詢豐度測(cè)量數(shù)據(jù),以及提供這些數(shù)據(jù)的有用的概觀。
Edgar R, Domrachev M, Lash AE. Gene Expression Omnibus: NCBI gene expression and hybridization array data repository. Nucleic Acids Res. 2002 Jan 1;30(1):207-10. doi: 10.1093/nar/30.1.207. PMID: 11752295; PMCID: PMC99122.
NEWS CENTER