在不同條件下獲得的生物過程的時間序列轉錄組對于鑒別過程的調控因子及其調控網(wǎng)絡非常有用。然而,這樣的數(shù)據(jù)是三維(3D)的(基因表達、時間和條件),目前沒有任何方法可以處理它們的全部復雜性。這里,研究者開發(fā)了一種不同條件下無需時間點一致及均一化的方法。研究者應用它分析了在明暗循環(huán)和完全黑暗條件下玉米葉片發(fā)育的時間序列轉錄組,獲得了八個時間序列基因共表達網(wǎng)絡(time-ordered gene coexpression networks,TO-GCNs),這可以用來預測GCNs中任何基因的上游調節(jié)因子。八個TO-GCNs中的一個是不依賴光的,并且可能包括所有參與Kranz解剖學發(fā)育的基因,Kranz解剖學是C4植物高效光合作用的關鍵結構。使用這個TO-GCN,本文預測并實驗驗證了一個位于SHORTROOT1上游的Kranz解剖學關鍵調節(jié)子。此外,應用該方法還比較了玉米和水稻葉片轉錄本,并鑒定了玉米C4酶基因和RUBISCO SMALL SUBUNIT2的調節(jié)因子。本研究不僅提供了一種強有力的研究方法,也對Kranz解剖學發(fā)育和C4光合作用的調控網(wǎng)絡提供了新的見解。
實驗結果:
LD或TD下玉米葉片的早期發(fā)育
為了說明時間序列轉錄組數(shù)據(jù)新方法的必要性,研究者選擇研究玉米幼苗在自然光照-黑暗周期(light–dark cycle, LD, 13h光照/11h黑暗)及完全黑暗(total darkness, TD)。LD下,幼苗經(jīng)歷光形態(tài)建成。相比之下,在TD下,幼苗則會發(fā)生暗形態(tài)建成。眾所周知,在LD和TD下生長的玉米幼苗都發(fā)育具有Kranz特征,因此LD和TD數(shù)據(jù)的比較有助于去除大量不參與Kranz解剖學發(fā)育的光調節(jié)基因。
實驗所用玉米葉片轉錄組數(shù)據(jù)
在這項研究中,研究者在TD下獲得了一組12個發(fā)育胚胎葉片的時間進程轉錄組(從干種子開始每6h取樣測定,從0h到吸脹后72h)。通過結合前人2013年在LD相同時間點取樣測定結果,并且在T00 (干種子) 共享轉錄組數(shù)據(jù),最終在LD和TD下?lián)碛袃山M13個轉錄組。序列reads經(jīng)過處理和比對,以及RPKMs的標準化。如果在25個轉錄組數(shù)據(jù)中至少有2個轉錄組的RPKM>1,就被認為是一個表達的基因??偣灿?/span>25489個基因,包括1718個TF (轉錄因子)基因被認定是表達的,并用于后續(xù)分析。
3D轉錄組數(shù)據(jù)分析的方法學探討
當比較從兩個不同的實驗項目中獲得的兩組轉錄組時,考慮時移效應是很重要的。然而,這并不簡單,因為基因之間的時移程度不同。為了克服這一點,本研究首先考慮在每組時間序列轉錄組基因的共表達,然后比較LD和TD下的共表達模式(圖1A )。具體來說,研究者考慮兩個在LD下共表達的基因是否也在TD下共表達,反之亦然。然后利用基因共表達關系構建GCNs。此外,由于扮演就利用的數(shù)據(jù)是時間進程數(shù)據(jù),因此方法還可以確定GCN中節(jié)點的時間順序(圖1B )。時序GCN可以揭示基因功能的動態(tài)和生物過程的時間轉變(圖1B )。下面,具體解釋如何計算基因共表達關系,然后構建TO-GCNs。
基因共表達關系和網(wǎng)絡計算
為了簡單起見,研究者首先關注TF基因。本研究定義了兩個TF基因之間的共表達關系,或者TF基因和非TF基因之間的共表達關系,如下所示。首先,分別計算LD和TD下1718個表達的TF基因的所有對的原始RPKM值的Pearson相關系數(shù)(PCC),發(fā)現(xiàn)任何兩個TF基因之間的PCC超過0.84的概率為P<0.05。對于TF和非TF基因之間的共表達,閾值是相似的。因此,如果PCC≥0.84,將兩個基因定義為正共表達(根據(jù)數(shù)據(jù)集表示為LD+或TD+)。此外,如果-0.5≤PCC<0.5,即將兩個基因定義為非共表達(表示LD0或TD0),如果PCC<-0.5,研究者將兩個基因定義為負共表達(表示LD-或TD-)。綜合考慮LD和TD下的共表達狀態(tài),認為如果兩個基因在LD和TD下都是正共表達的,那么它們屬于LD+TD+關系的集合。類似地,如果它們只在LD (或TD )下正共表達,兩個基因屬于LD+TD0 (或LD0TD+ ),而在TD (或LD )下不正共表達。研究者對非表達基因( LD0TD0 )不感興趣。只檢測了LD+TD+,這可能包括Kranz解剖發(fā)育中的所有關鍵基因。
在LD+TD+集合中,共表達關系依賴于光效應,這使得研究者能夠縮小Kranz解剖結構的細胞調節(jié)因子。LD+TD+中的1275個TF基因中,1207個形成了一個大的、主要的TF GCN,TF基因的節(jié)點通過共表達關系連接起來。這個GCN被稱為光不依賴的TF GCN。剩余的68個TF基因形成28個GCNs,每個GCNs具有<10個TF基因。由于GCN中連接的TF基因在時間進程中具有相似的上調或下調時間點,研究者可以推斷主要GCN中所有TF基因在葉片發(fā)育期間的表達時間順序。為此,研究者選擇ZmARF2-1 (AUXIN RESPONSE FACTOR2-1;Zm00001d041056)作為初始節(jié)點,因為它是LD下T00處具有峰值表達的第一個共表達模塊,也就是說,它在時間0處的表達水平非常高(RPKM 96),并且單調下降,直到T72。此外,ZmARF2-1是生長素反應因子,生長素是細胞分裂和幼苗發(fā)育中重要的植物激素。這些觀察結果與假設相符,即ZmARF2-1在萌發(fā)過程中起作用。然后,應用廣度優(yōu)先搜索(BFS)算法為所有TF基因分配時間順序級別中的主要GCN。將這個主要的GCN稱為與光無關的TF TO-GCN,它由15個時間順序級別組成(在圖2A中表示為L1至L15)。
圖1、比較轉錄組學方法流程圖。(A)構建轉錄因子(TF)時序基因共表達網(wǎng)絡的三個步驟。以獨立于光(LD+TD+)、暗特異性(LD0TD+)和光特異性( LD+TD0) GCNs為例顯示。+/-,正/負共表達。(B) 在TO-GCN中代表時間順序中TF基因上調的水平(L1至LM),對應于不同水平的共表達基因集(S1至SM) (包括非TF基因)以及過度表達功能。L1中的黃色節(jié)點代表初始節(jié)點。一個集合中的基因可能在多個水平上與TF共同表達,因此它們可能屬于多個集合。
獨立于光的TF TO-GCN分析
如上所述,獨立于光的TF TO-GCN中的TF基因被分配到15個水平(圖2A)。這些指定的水平與LD和TD下13個時間點上TF基因的表達時間順序相匹配,如平均標準化RPKMs (z scores)的兩個熱圖中沿對角線的紅色正方形(高表達水平)所示(圖2B和C)。此外,高表達時間周期在連續(xù)水平之間重疊,表明某一水平的TF基因可能是下一水平TF基因的調控者。此外,相同水平的大多數(shù)TF基因在TD下比LD下更早被上調或下調(圖2B和C )。例如,L1的TF基因在LD下的T12下調,而在TD下的T06下調(圖2B和C )。
獨立于光的功能分析
通過在與光無關的TO-GCN (圖2A和數(shù)據(jù)集S2)的每個水平上識別共表達基因中過度表達的功能類別,研究者發(fā)現(xiàn)L8和L9之間有明顯的發(fā)育階段轉變(圖2D )。在最初的八個水平上,泛素化介導的蛋白質降解比例過高。在前四個水平上,其他九個功能也過度表達,包括,例如,蛋白質翻譯后修飾、脫落酸的激素代謝(ABA)、生物和非生物脅迫、線粒體膜上的代謝物轉運體和鉀的轉運(圖2D)。
植物激素是引發(fā)發(fā)育重編程的關鍵。研究者發(fā)現(xiàn)與ABA信號轉導相關的基因往往在前三個水平出現(xiàn),但隨后會減少,這與ABA維持種子休眠直至萌發(fā)開始一致(圖2E )。與ABA相反,大多數(shù)與赤霉素(GA)信號轉導相關的基因出現(xiàn)在L2和L3,這與GA對ABA誘導萌發(fā)過程的拮抗作用一致。大多數(shù)與生長素和細胞分裂素(CK)信號轉導相關的基因分別出現(xiàn)在L9至L15和L10至L13 (圖2E)。這也與以前的研究一致,即這兩種激素一起在調節(jié)葉細胞增殖和分化中起主要作用。
圖2、與光無關的TF TO-GCN和不同水平TF基因的標準化基因表達譜。(A)以TF基因為節(jié)點的TO-GCN結構(藍色虛線圓圈)。圓圈中的數(shù)字表示該水平的TF基因數(shù)。(B和C)分別是LD和TD下TO-GCN每個水平上TF基因每個時間點的平均標準化RPKMs (z scores)的熱圖。對于每個TF基因,時間點上的RPKMs首先被標準化為z scores。對于每個級別,所有TF的z scores在熱圖中為平均值。(D)每個水平上共表達基因的過度表達MapMan功能及列表。圖中的數(shù)字(頂部)對應于表(底部)中列出的過度表示功能的索引號。藍色、橙色和綠色分別代表發(fā)芽、葉子發(fā)育和光合作用階段。(E)在每個TO-GCN水平上,四種激素信號轉導途徑中的基因比例。
關鍵Kranz解剖調節(jié)子的上游調節(jié)因子
ZmSHR1在玉米Kranz解剖結構的BS細胞發(fā)育中發(fā)揮了重要作用,但其上游調節(jié)因子仍未知。因此,本研究選擇ZmSHR1作為例子,來展示該方法如何被用來識別特定基因的上游調節(jié)因子。具體來說,使用獨立于光的TF TO-GCN設計了一個三步工作流程(圖3)來識別調節(jié)ZmSHR1表達的上游調控途徑。
首先,使用TO-GCN來預測ZmSHR1的候選直接調節(jié)子,該調節(jié)子應該與ZmSHR1在與ZmSHR1相同的水平上或在ZmSHR1之前的一個水平上共表達(即,圖3A中的L11和L10)。(一個TF可以是同一水平上另一個TF的上游調節(jié)因子,稱這些TF為一級候選調節(jié)子。類似地,研究者分別推斷L9、L8和L7處的二階、三階和四階候選調節(jié)子(圖3A )。其次,對于每個具有未知TFBS (轉錄因子結合位點)的候選調節(jié)子,采用前人方法和擬南芥TFs的TFBS數(shù)據(jù)庫預測其TFBS, (由圖3A中的紅色表示預測的TFBSs)。對于那些在圖3A中用橙色表示的TFs,我們無法預測它們的TFBSs,因為玉米和擬南芥之間的DNA結合域太大,或者沒有擬南芥數(shù)據(jù)。第三,對于具有已知或預測TFBS的每個TF,檢查了每個可誘導靶基因啟動子區(qū)域中TFBS的存在。該過程進一步將圖3A中的網(wǎng)絡簡化為圖3B中的網(wǎng)絡。
接下來,我們使用電泳遷移率轉移分析(EMSA)和原生質體瞬時轉化分析(PTA)來驗證對候選調節(jié)因子及其假設目標基因的預測。EMSA和PTA實驗都支持由圖3B中的紅色箭頭表示的上游調節(jié)級聯(lián)關系;也就是說,ZmARF1-2是ZmWRKY39的直接上游調節(jié)子,而ZmWRKY39又是ZmMYB117的直接上游調節(jié)子,然后ZmWRKY39充當ZmWRKY39的直接上游調節(jié)子。
圖3、玉米葉片發(fā)育中ZmSHR1基因候選上游調節(jié)因子的推斷和實驗驗證。(A)從獨立于光的TF TO-GCN推斷出的ZmSHR1的一階至四階候選上游調節(jié)因子。ZmSHR1位于第11層子網(wǎng)的中心。沒有已知轉錄因子結合位點(transcription factor binding site,TFBS)的TFs以橙色顯示。已知的TFs TFBSs (藍色)用于檢測它們的候選下游基因啟動子序列中是否存在它們的定位位點。TFBS支持的預測調節(jié)途徑中的TFs以紅色顯示,并用于實驗驗證。(B)針對實驗驗證的ZmSHR1上游調控網(wǎng)絡。實線方向或帶箭頭的虛線旁邊的數(shù)字代表原生質體瞬時轉化實驗(protoplast transient assay,PTA)實驗中潛在直接或間接靶基因表達水平的倍數(shù)增加。紅線:目標基因啟動子中TFBS的存在(如箭頭所示),并經(jīng)PTA和EMSA驗證。灰色虛線:支持PTA,但在啟動子中沒有發(fā)現(xiàn)TFBS。(C-F) EMSA實驗,測試推定靶啟動子中預測的TFBSs與GST-ZmmTERF1 (C)、GST-ZmARF1-2 (D)、GST-ZmWRKY39 (E)或GST-ZmMYB117 (F)之間的相互作用。在每種情況下:泳道1:單獨生物素標記的探針;泳道2至4:隨著純化GST量的增加(C除外);泳道5至7:隨著GST-TF量的增加;和泳道8至10:隨著未標記探針數(shù)量的增加(C除外)。
鑒定C4酶基因的調節(jié)子
為了展示我們方法的廣泛應用,研究者分析了Wang等人的3D數(shù)據(jù)。這是分別來自玉米(C4)和水稻(C3)第三發(fā)育葉片的15和11段的兩組轉錄組。請注意,這里我們考慮的是空間點,而不是時間點。按照本研究方法,研究者成功找到并鑒定了那些關鍵C4酶基因共表達的TF基因,并且候選TF通過EMSA實驗得以驗證。
結論:
這項研究的主要貢獻是比較不同條件(或組織/器官或物種)和時間點(或空間點)下獲得的3D轉錄組的方法,展示了一種分析3D數(shù)據(jù)集的有效方法的實用性。它可以在廣泛的背景下應用于對比基因共表達譜。