高通量測序技術的 飛速發(fā)展與生物數據的爆炸式增長推動基因組學研究進入了大數據時代。王向峰教授主要從事植物基因組學、生物信息學和系統生物學方面的研 究。將大數據技術運用到植物基因調控網絡構建、重要農藝性狀基因挖掘、基因注釋與功能預測等植物科學研究中,并最終與育種實踐相結合,開發(fā)分子設計育種模 型、軟件、數據庫,為我國育種家服務,是他的課題組長期努力的目標。談到課題初衷時,王向峰說道:“人類健康與醫(yī)學領域中‘大數據’技術體系已逐步建立起 來,但‘大數據’如何應用到農業(yè)生產與育種產業(yè)還需要一定時間的摸索。與‘精準醫(yī)療’、‘智慧醫(yī)療’的理念類似,以大數據技術為依托的‘√準育種’、‘智 慧農業(yè)’等體系的建立與發(fā)展是全球農業(yè)發(fā)展的未來方向。相對于小樣本量數據,大數據具有積累速度快(Velocity)、數據規(guī)模大(Volume)、數 據類型多樣(Variety)這三個‘V’的特征。大數據并非體現在數據物理存儲上的‘大’,而是體現于信息量的‘全’和數據特征的‘雜’。這對植物學與 農業(yè)相關科研機構建立統一的大數據計算構架、大數據存儲與管理方案、大數據挖掘方法與流程提出了巨大的挑戰(zhàn)?!蓖跸蚍暹€談到“科研人員與小型機構本身難以 應付這一挑戰(zhàn),而云技術的出現為科研領域提供了解決方案,研究者可以通過網絡很方便的按照分析需求從云平臺服務商那里獲取廉價且靈活擴展的計算資源,從而 滿足大數據存儲、管理、分析的要求?!?br />
新興技術云計算
云 計算作為新興的IT技術,允許用戶通過網絡方便的隨時獲取基礎計算資源,而無需添置與維護昂貴的用于大數據存儲與分析的高性能計算硬件資源,采用虛擬化技 術可實現計算資源的快速擴展,用戶可以根據自己的存儲分析需求,快速調整資源配置,經濟靈活。王向峰談到:“不難想象,未來基因組學分析、高通量測序數據 分析、以及各類高通量生物學計算都將通過云計算與云存儲等制定化服務及統一的分析流程的方式完成,而無需科研人員自己構建本地的計算平臺與分析流程?!?br /> 在過去幾年的時間里,王向峰的研究團隊致力于對已發(fā)表的公共數據的整合性挖掘以及開發(fā)基于機器學習等現代信息技術的大數據分析方法。關于大數據如何服務于 植物科學研究,王向峰以基于公共數據庫構建植物基因表達調控網絡為例進行了介紹。傳統方法依據單一數據集中基因的共表達趨勢推測基因間潛在的調控模式,但 這一方法并不能直接說明表達模式相似的基因之間是否真實的存在直接的靶向調控關系?;诖髷祿木W絡構建是借助公共數據庫中收錄的所有類型的數據為基因間 功能關聯與調控關系尋求證據,多類型數據包括:植物中保守順式調控元件序列數據、使用高通量測序技術得到的Chip-Seq數據、轉錄因子結合位點數據、 基因共表達數據、蛋白質互作數據,以及科研文獻記載的知識型數據等。在獲得整合型數據后,采用適合大數據分析的機器學習的策略構建分類模型、回歸模型、決 策模型等手段探索數據間的關聯與規(guī)律,從而提高預測基因調控關系與挖掘重要功能基因的z確性。
關于大數據技術在√確農業(yè)中的應用前景
王向峰談到:“與國外的大型農業(yè)集團和育種公司相比,我國的農業(yè)生產信息化管理,基因工程與基因組育種等方面十分薄弱;現代農業(yè)必須以數據驅動 (data-driven)的管理模式為依托,通過降低農業(yè)生產成本、提高耕作效率、降低農業(yè)生產的風險,使農民從農業(yè)種植中獲得更大的利潤?!标P于植物 基因組學與生物信息學研究如何與育種產業(yè)相結合,王向峰繼續(xù)談到:“目前植物科學研究與育種應用研究在一定程度上是脫節(jié)的,科研工作者要意識到無論基因組 測序還是現在的大量的全基因組關聯分析(GWAS)研究都是以最終服務于農業(yè)生產與育種實踐為目的。農作物育種的本質是通過雜交等手段把優(yōu)良基因進行合理 組配而實現改變作物農藝性狀的目的,大數據技術正是銜接植物科學與育種應用的樞紐,將基礎研究產生的生物學知識與數據轉化為分子設計育種的科學依據,最終 推動傳統的‘經驗育種’向高效、定向、低成本的‘√確育種’的轉變?!?br />
“我們一直在國內尋求與具有生物信息學背景的云平臺提供商開展植物科學與分子育種大數據研究,借助云技術聯合開展大數據處理、存儲、管理等方案,以及開發(fā) 基于機器學習的大數據分析新方法。百邁客是主要從事農業(yè)高通量基因組測序與生物信息分析的服務商,率先推出了用于高通量測序與生物信息分析的商業(yè)化云計算 平臺——百邁客生物云平臺。我們將會把現有大數據分析流程與軟件逐步移植部署到國內這類成熟的商業(yè)化生物云計算平臺,為國內植物科學研究與育種家們提供服 務,全面提高我國植物基因組學研究與分子育種研究的實力。最后希望與國內的同仁們共同努力推動農業(yè)大數據的發(fā)展,將科學研究與農業(yè)應用相結合,實實在在的 指導農業(yè)生產與育種研究,惠及農民大眾,讓他們的辛勤勞作獲得更大的收益?!蓖跸蚍遄詈罂偨Y到。
王向峰教授簡介
王向峰,中國農業(yè)大學教授,博士生導師。2007年獲北京大學生物信息學博士學位,之后在耶魯大學、哈佛大學完成博士后階段工作;2010年在美國亞利桑 那大學,農業(yè)與生命科學學院任終身制助理教授;2014年作為“青年千人計劃”被人才引進到中國農業(yè)大學工作,現任農學院作物基因組學與生物信息學系系主 任。課題組主要從事植物基因組學、生物信息學和系統生物學等方面的研究,發(fā)表論文三十余篇。
參考文獻:
1、Chuang Ma, MingmingXin, Kenneth A. Feldmann, and XiangfengWang.Machine learning-based differential network analysis: a study of stress-responsive transcriptomes in Arabidopsis.Plant Cell. 2014, 26(2):520-37.
2、Chuang Ma, Hao Helen Zhang, XiangfengWang.Machine learning for Big Data analytics in plants.Trends in Plant Science. 2014, 19(12):798-808.