技術(shù)規(guī)格及參數(shù) | 1.1機架式: ≥4U機架式超融合平臺 CPU配置 :最大支持2顆CPU單顆最多64個內(nèi)核,最大功率385W,支持HBM技術(shù) 內(nèi)存配置: 實配≥32GB/RECC/DDR5/4800MHz*16 :支持多達(dá)32個DDR5內(nèi)存插槽,速率可高達(dá)5600MT/s,支持RDIMM或LRDIMM,容量高達(dá)8TB ﹒支持CXL 1.1 硬盤配置 : 實配≥2* 7.68T 2.5寸 NVME 企業(yè)級 SSD; 實配≥6*16T/3.5寸/SATA/6Gb/s/7.2K/512M/512e; 存儲控制器 :RAID/12Gb/s/3316/SAS/8643/RAID 0,1,5,6,10,50,60,JBODRAID級別/2G 硬盤擴展性 : 最大可支持≥12塊3.5寸SATA/SAS/NVME硬盤 網(wǎng)卡配置 : 配置≥1*雙口/1G/電口/以太網(wǎng) 配置≥1*雙口/10G/光纖/以太網(wǎng)/含模塊 板載標(biāo)配1個RJ45專用IPMI LAN端口 GPU擴展性 : 最大支持≧8個PCIE 5.0 x16擴展插槽+2個PCIE 5.0 x8擴展槽,最大支持8張GPU; 實配≧1個GPU、顯存:≧80GB HBM3 顯存帶寬:≧5120bit;CUDA核心數(shù)量≧14500個;TDP≧350W 電源 : 實配≧2600W白金(2+ 2)冗余電源; 1.2 管理軟件一:提供容器+鏡像的管理,提供GPU+CPU集群的管理和調(diào)度;多數(shù)據(jù)中心管理,用戶可以選擇使用某一數(shù)據(jù)中心資源;備3層組織架構(gòu)管理;如管理員、組織管理員、成員等,通過設(shè)定對組織及用戶進(jìn)行資源配額;支持對資源進(jìn)行套餐分配及設(shè)置使用權(quán)限,可設(shè)置部分或全部使用;用戶按需申請深度學(xué)習(xí)環(huán)境,包括深度學(xué)習(xí)框架,網(wǎng)絡(luò)模型,GPU及CPU等資源,支持用戶對環(huán)境框架、資源配置進(jìn)行動態(tài)調(diào)整。*支持對環(huán)境做定時快照和備份,用于環(huán)境的快速回滾;支持把當(dāng)前環(huán)境一鍵打包至鏡像倉庫,用戶可以基于該鏡像創(chuàng)建新的環(huán)境;*數(shù)據(jù)標(biāo)注工具服務(wù)化,通過平臺集成的數(shù)據(jù)標(biāo)注工具,可以在線完成數(shù)據(jù)標(biāo)注;(以上功能供應(yīng)商在報價響應(yīng)時需上傳并加蓋公章截圖證明,未按要求提供視為無效響應(yīng)) 1.3*平臺具備多種計費模式;提供完整的計量計費功能,管理可通過計費模塊對GPU、CPU、內(nèi)存等資源進(jìn)行費用設(shè)定,根據(jù)用戶使用時長進(jìn)行計費;支持用戶通過支付寶等方式在線充值;也支持虛擬充值,在后臺管理系統(tǒng)上由運營人員進(jìn)行充值;也支持免費使用; 1.4管理集群中GPU平臺及GPU卡的運行狀況,資源使用情況,包含GPU總數(shù)/使用數(shù),GPU核心平均利用率,GPU顯存平均利用率等。*支持單機單卡,單機多卡,多機多卡分配資源;提供單GPU卡多任務(wù)共享、GPU切割(vGPU)方式分配資源,提升GPU利用率;AutoML超參調(diào)優(yōu),用于調(diào)整用戶算法的超參數(shù),原生支持眾多機器學(xué)習(xí)框架,支持不同的AutoML算法; 支持分布式并行訓(xùn)練功能,支持TensorFlow、pytorch分布式訓(xùn)練,同時集成horovod、ray分布式訓(xùn)練框架;支持將訓(xùn)練好的AI模型部署成在線服務(wù)(Web Service),支持用戶自定義推理腳本文件,提供在線UI預(yù)測推理能力,為用戶提供可調(diào)的用API接口。支持設(shè)置模型服務(wù)自動停止時間,避免不必要的資源浪費; 1.5 電源:2600W(2+2)冗余; 電源模塊功耗轉(zhuǎn)化率≥96%; (以上性能供應(yīng)商在報價響應(yīng)時提供相關(guān)測試證明加蓋公章截圖上傳,未按要求提供視為無效響應(yīng)) 2.2★軟件配置2要求: 提供基于高性能計算物理集群的算力資源,不接受vCPU、vGPU、虛擬核心、邏輯核心(超線程)等虛擬化資源或云主機資源。采用的算力資源為基于高性能計算集群的物理CPU算力資源,非vCPU、虛擬核心、邏輯核心(超線程)等虛擬化資源或云主機資源。資源操作系統(tǒng)應(yīng)采用CentOS Linux 7.8或以上版本;預(yù)裝GPU驅(qū)動、CUDA、編譯器、數(shù)學(xué)庫、MPI、Anaconda等計算環(huán)境。支持用戶聯(lián)網(wǎng)在線安裝部署相關(guān)計算軟件;采用Slurm作業(yè)調(diào)度管理系統(tǒng)和Lustre并行文件系統(tǒng),支持磁盤配額管理及按需在線擴容。操作系統(tǒng)為CentOS Linux 7.8或以上版本,并預(yù)裝了GPU驅(qū)動、CUDA、編譯器、數(shù)學(xué)庫、MPI、Anaconda等計算環(huán)境。同時,支持用戶聯(lián)網(wǎng)在線安裝部署相關(guān)計算軟件。此外,采用Slurm作業(yè)調(diào)度管理系統(tǒng)和Lustre并行文件系統(tǒng),支持磁盤配額管理及按需在線擴容,以確保用戶在使用過程中的順暢和靈活性??梢姴僮飨到y(tǒng)采用CentOS 7.9.2009;預(yù)置Intel/GNU編譯器、MPI并行計算環(huán)境、MKL數(shù)學(xué)庫、Anaconda科學(xué)計算工具包等并行計算環(huán)境(通過module工具統(tǒng)一管理,通過“module avail 軟件/工具名稱”查看已預(yù)裝的工具軟件及版本情況,通過“module load 軟件/工具名稱”加載和使用),采用Slurm作業(yè)調(diào)度管理系統(tǒng)分發(fā)計算任務(wù),軟件版本為21.08.8-2;采用Lustre存儲系統(tǒng)且支持磁盤配額和動態(tài)擴容。操作系統(tǒng):采用CentOS Linux release 7.9.2009,符合指標(biāo)要求,預(yù)置并行計算環(huán)境:預(yù)置Intel/GNU編譯器、MPI計算環(huán)境、MKL數(shù)學(xué)庫、Anaconda科學(xué)計算工具包等計算環(huán)境,可通過module工具統(tǒng)一管理,通過“module avail 軟件/工具名稱”查看已預(yù)裝的工具軟件及版本情況,通過“module load 軟件/工具名稱”加載和使用;如版本不匹配也可聯(lián)網(wǎng)在線安裝。 作業(yè)調(diào)度系統(tǒng):采用Slurm作業(yè)調(diào)度管理系統(tǒng)分發(fā)計算任務(wù),軟件版本為21.08.8-2文件系統(tǒng):采用Lustre文件存儲系統(tǒng),總存儲空間5.4PB,可為采購人提供足量的存儲空間,支持磁盤配額和動態(tài)擴容。 提供超算預(yù)警消息自助管理入口,支持用戶通過Web和微信公眾號自助設(shè)置消息通知開關(guān)及余額、作業(yè)運行時長、存儲使用等消息的報警閾值。超算預(yù)警消息自助管理入口,用戶可以通過Web和微信公眾號自助設(shè)置消息通知開關(guān),以及設(shè)置余額、作業(yè)運行時長、存儲使用等消息的報警閾值,以便用戶能夠及時獲得重要通知和預(yù)警。多種消息管理渠道,用戶可通過超算服務(wù)控制臺的自助中心(Web方式)以及微信公眾號自助設(shè)置超算預(yù)警消息通知開關(guān),支持自定義設(shè)置余額、作業(yè)長時間運行、存儲使用等預(yù)警消息的閾值;支持通過微信公眾號接收上述預(yù)警消息。云桌面提供了超算預(yù)警消息自助消息管理工具,支持用戶通過Web界面及微信公眾號自助設(shè)置消息通知開關(guān)及余額、作業(yè)運行時長、存儲使用等消息及報警閾值;可設(shè)置是否接收超算云服務(wù)提供的相關(guān)告警及提示消息,并支持自助設(shè)置余額、作業(yè)運行時長、存儲使用等消息的報警閾值(供應(yīng)商響應(yīng)時提供截圖驗證材料加蓋公章上傳,未按要求提供視為無效響應(yīng)),超算作業(yè)查詢:供應(yīng)商可提供可實時查詢超算作業(yè)狀態(tài)和消費記錄超算服務(wù)微信小程序,提供超算服務(wù)微信小程序,用戶可以通過它實時查詢超算作業(yè)狀態(tài)和消費記錄,以便隨時掌握作業(yè)進(jìn)展和費用情況。在系統(tǒng)中綁定超算云賬號后即可實時查詢超算作業(yè)狀態(tài)和消費記錄(供應(yīng)商響應(yīng)時需提供證明截圖加蓋公章上傳,未按要求提供視為無效響應(yīng))。 |