站在21年后的今天回望1999,無論對于汪建還是華大基因而言,都是具有里程碑意義的一年。這一年,作為“人類基因組計劃”中國研究員之一的汪建,一手創(chuàng)立了華大基因。
自上世紀90年代初以來,“基因”便成為人類繞不開的話題,學界更是從那時起開始涉足“人類基因組計劃”。
在你我或多或少都能談上一兩句“基因”的今天,基因已經不再是那樣的新奇,它甚至關乎著你我自身的健康。
秉承“基因科技造福人類”的使命,懷抱“健康美麗,做生命時代的引領者”的愿景,華大基因以“產學研”一體化的發(fā)展模式引領基因組學的創(chuàng)新發(fā)展。然而,對于華大基因這樣的行業(yè)先行者而言,若想有一個更長遠的未來,解決算力瓶頸成為立足基因測序行業(yè)的必然選擇。
計算資源緊張的時候
任務排隊等候是“家常便飯”
01、隨著業(yè)務規(guī)模的不斷擴大,既反映了華大基因不可撼動的行業(yè)地位,同時也讓它遭受了“幸福的煩惱”——“基因測序”需要龐大的算力支持。
往大了說,如今的生命科學研究競賽,很多時候已經變成了一場“算力”的比拼,好的科研成果通;邶嫶蟮挠嬎銛祿蛷姶笏懔Φ闹;往小了說,目前的產前檢測、腫瘤檢測等醫(yī)療檢測也需要消耗大量的算力。
作為全球領先的生命科學前沿機構,目前華大基因已經完成HPV檢測總數超過420萬例,完成耳聾基因檢測250余萬例,完成無創(chuàng)產前檢測510多萬例。
這些基因測序的流程中,動輒涉及數萬到數十萬個基因測序及模型建立,依賴大量的計算和存儲資源,隨著未來業(yè)務量的那一步擴展,將使華大基因的傳統(tǒng)IT架構面臨一定挑戰(zhàn)——計算資源緊張的使用峰值時,任務排隊等候更是“家常便飯”。
02、除此之外,基因測序行業(yè)還有這樣的特點,對于算力的需求是波動的。通常情況下,第4季度的消耗最大而第1季度最少,這便導致了服務器的數量無法得到很好的控制。
如何調配服務器成為擺在華大基因這樣基因測序企業(yè)面前的一大難題;驕y序行業(yè)有很多復雜基因組,在各個測序分析的階段需要借助不同規(guī)格的計算資源,線下計算集群往往無法適應快速的擴縮容。
03、除此之外,線下集群架構不支持高通量基因測序數據的多任務并行,面對海量基因數據,每個基因測序都是一個極其消耗計算資源的過程,傳統(tǒng)的數據存儲和分析方式并不能支持高通量測序的需求。
面對基因測序行業(yè)困難與挑戰(zhàn),華大基因該如何化解?

華為云讓華大基因
“云端暢游”,事半功倍
面對大量待測數據的挖掘、存儲、計算等都給基因測序行業(yè)帶來了全新的挑戰(zhàn)。系統(tǒng)逐步上云成為基因行業(yè)未來高速度、高質量發(fā)展中不可缺少的重要一環(huán)。
2018年,針對基因測序行業(yè)的困難與挑戰(zhàn),華為云推出了以Kubernetes為基礎的基因容器服務GCS(Gene Container Service)。通過華為云GCS-SGE容器方案,將基因測序和容器技術完美結合,可以幫助華大基因更好地解決新一代基因測序技術在應用過程中所產生的大量數據存儲、識別、計算等問題。
為了更好地探索基因的奧秘和解決計算資源短缺等問題,華大基因率先開啟創(chuàng)新改革之路。“步入云端”后,華大基因既節(jié)省了測序時間,又針對測序算力需求波動,云端容器自主擴容,解決了峰值期客戶各部門排隊情況。
不僅如此,華為云GCS服務還為華大基因提供全自動化測序分析能力、低成本高可靠的存儲服務,通過計算存儲分離、內存及分布式緩存、智能調度等使大數據性能提升40%,成本降低50%。如今,華大科技服務已利用GCS-SGE方案完成超過300萬核時計算,合作期間始終保持云端平穩(wěn)運行。





看華為云五大“技能”為華大基因提供算力加持
回到最初的起點,人們關心的仍然是“基因測序技術能否鎖定個人病變基因,提前預防和輔助治療”的問題。因為,基因科技產業(yè)的發(fā)展一頭連著經濟發(fā)展,一頭連著民生福祉。(延伸閱讀:預言只在科幻里?不,可能還在基因里)
近年來,華為云也一直秉持“科技向善”的理念,華大基因與華為云的攜手,不僅以科技力量解碼基因測序,也為上述問題的解決提供了更多的可能,進而讓更多人從中獲益。
可以想象,在“云+AI+5G”等新技術的加持下,華大基因和華為云將繼續(xù)為基因乃至泛醫(yī)療行業(yè)的發(fā)展帶來更多想象空間。