Facebook再次顛覆了數據中心基礎設施管理的傳統理念,將過去相對獨立的機房設施和服務器硬件數據納入統一的管理軟件。
還記得2012年6月底的“閏秒事件”嗎?當時網絡上關于Java、Hadoop和Apache Cassandra數據庫等技術的閏秒問題吐槽聲不斷。包括Reddit、Foursquare等大型網站紛紛中招,Facebook服務器CPU使用率瞬間升至100%,耗電量瞬間飆升,導致Facebook位于弗吉尼亞數據中心的斷路器發(fā)生故障,結果300個機架宕機。
一個不起眼的閏秒問題給互聯網帶來的實質性沖擊遠遠超過Y2K問題!
而對于Facebook的工程師來說,從閏秒問題能吸取的最大教訓就是考慮開發(fā)出能整合第三方建筑管理軟件和Facebook自主開發(fā)的服務器性能監(jiān)測工具的新型管理軟件。
Facebook網站運營副總裁Tom Furlong最近在接受媒體采訪的時候透露,Facebook最新的數據中心管理軟件能夠將溫度、濕度等戶外信息與整棟建筑的能耗,以及CPU存儲和內存方面的數據進行綜合分析和管理。
過去幾個月中,Facebook推出了新版本的數據中心基礎設施管理(DCIM)項目,以及一個全新的集群規(guī)劃系統用于將所有數據都可視化。Facebook計劃今年內更大范圍地推廣其DCIM項目。
Facebook新推的數據中心管理軟件可以減少工程師設計數據中心性能優(yōu)化方案的時間。“從過去的12小時縮短到半個小時”Furlong說道。
與此同時,一體化的數據中心管理軟件還能幫助Facebook進一步提高其數據中心的能耗效率,同時減少了新建數據中心的需求。
Furlong預計Facebook將在明年1月的開放計算峰會上討論一體化數據中心管理軟件,但還不確定是否會像Open Compute Project的數據中心硬件設計一樣向公眾公開。目前的一體化管理軟件中集成了很多Facebook自有的監(jiān)控工具,而這些是Facebook所不愿意公開的。