以下是推薦的有關(guān)HPC、GPU和AI的會議。
一、Ceph和CERN HPC基礎(chǔ)設(shè)施在過去五年中,CERN的IT部門使用Ceph為其龐大的OpenStack云構(gòu)建了橫向擴(kuò)展存儲。對于塊和對象存儲用例,無論有無擦除編碼,Ceph都表現(xiàn)出靈活性和可擴(kuò)展性,同時能夠應(yīng)對基礎(chǔ)設(shè)施故障。在這次講座中,CERN的Dan van der Ster和Arne Wiebalck將重點介紹用戶所需的關(guān)鍵指標(biāo),包括POSIX合規(guī)性、小文件延遲、元數(shù)據(jù)吞吐量和可擴(kuò)展性以及容錯能力,同時展示行業(yè)標(biāo)準(zhǔn)和新的微基準(zhǔn)。來自CERN和SKA的演講者也會討論HPC和裸機(jī)。
二、Nova中的虛擬GPU紅帽的Sylvain Bauza和Critrix的Jianghua Wang認(rèn)為,OpenStack中的GPU是一個長期存在的問題。為每個實例(即AI、挖掘和桌面)提供高性能GPU有很多商業(yè)案例。直到Queens,將這些設(shè)備暴露給訪客的唯一解決方案是在Nova中通過PCI。在這次講座中,他們將演示如何通過向XenServer和libvirt / KVM Nova驅(qū)動程序請求虛擬GPU(vGPU),并分享即將發(fā)布的路線圖。
三、使用OpenStack加速服務(wù)和可組合硬件優(yōu)化HPC / AI云在這個會議上,來自99cloud的Shuquan Huang和來自英特爾公司的Jianfeng Ding將介紹OpenStack Acceleration Service——Cyborg,它為加速器設(shè)備(例如FPGA、GPU、NVMe SSD)提供管理框架。他們還將討論Rack Scale Design(RSD)技術(shù),并解釋如何動態(tài)聚合物理硬件資源以滿足AI / HPC需求。通過API動態(tài)組合針對工作負(fù)載優(yōu)化的硬件和加速器設(shè)備,使數(shù)據(jù)中心管理員能夠以高效的自動化方式管理這些資源。
四、AI驅(qū)動的編排、挑戰(zhàn)和機(jī)遇來自TELUS Communications的Sana Tariq將分享在混亂的多供應(yīng)商、多領(lǐng)域混合云生態(tài)系統(tǒng)中,從開發(fā)評估標(biāo)準(zhǔn)(開源/商業(yè)供應(yīng)商)到架構(gòu)考慮的實施服務(wù)編排平臺的過程。這次講座關(guān)注的是AI和ML驅(qū)動的自動化和編排的未來,聚焦如何優(yōu)化云/網(wǎng)絡(luò)資源管理,增強(qiáng)安全性,提升用戶體驗,為未來服務(wù)格局創(chuàng)造新的商業(yè)機(jī)會。
五、為HPC用戶部署OpenStack學(xué)到的經(jīng)驗教訓(xùn)明尼蘇達(dá)州超級計算研究所部署了一個名為Stratus的OpenStack云。這個演講描述了啟動一個平臺以支持有特定數(shù)據(jù)使用協(xié)議的研究的經(jīng)驗教訓(xùn),以及有關(guān)問責(zé)制、風(fēng)險接受以及大型超級計算機(jī)設(shè)施偏離其傳統(tǒng)支持基礎(chǔ)時項目領(lǐng)導(dǎo)角色的問題。
六、案例研究:用于高速存儲機(jī)器學(xué)習(xí)的大規(guī)模部署來自NTT的三位演講者將提供一個帶有Ansible和容器編排自動化、完全開源的參考集群模型的案例研究。環(huán)境基于GPU計算和高速存儲,其中使用Chainer和ChainerMN學(xué)習(xí)框架與多個NVIDIDA GPU節(jié)點,并將完美可擴(kuò)展的OpenStack Swift對象存儲和文件系統(tǒng)API作為高速數(shù)據(jù)存儲。
