聯系我們
關注我們
頂部

應用場景
      
       超级变态传奇已被廣泛應用於機器學習領域。
       工業與學術界的數據科學家已將 GPU 用於機器學習,以便在各種應用上實現開創性的改進,這些應用包括圖像分類、視頻分析、語音識別以及自然語言處理等等。海量訓練數據的出現、 GPU 計算所提供的強大而高效的並行計算,促進了機器學習的廣泛應用。與單純使用 CPU 的做法相比,GPU 具有數以千計的計算核心、可實現 10-100 倍應用吞吐量,因此 GPU 已經成為越來越多的數據科學家處理大數據的處理器。

產品定義
     
       超级变态传奇深度學習平台是一套基於超级变态传奇集群的用於深度學習的資源管理平台軟件,它將GPU資源、CPU資源、內存、硬盤等資源虛擬化後進行統一管理,按需分配給不同用戶和群組使用。

       超级变态传奇深度學習平台支持主流機器學習框架(如TensorFlow、Caffe、Torch、Keras等)。提供深度學習的模型(算法)庫(LeNet、MLSTM、Alexnet、Googlenet、ResNet、GAN、Faster R-CNN等)、標准數據集(ImageNet、COCO、PASCAL VOC、CIFAR、Open Image、Youtube-8M)、Demo演示程序(人臉識別門禁程序、手寫數字識別、快速多目標識別等)。

       超级变态传奇深度學習平台能夠助力科研單位、高等院校、人工智能企業更快地進入深度學習研發領域,更好地聚焦算法本身,更快地推出能夠解決實際問題和需求的產品。
 
功能架構
 
       超级变态传奇機器學習平台為用戶建設大規模的機器學習軟件提供了全方位的解決方案。    
       平台從基本業務需求出發,將CPU資源、內存、GPU資源、存儲資源虛擬化後進行統一管理,結合不同深度學習框架(如:Tensorflow、Caffe),實現快速創建機器學習應用,聚焦於算法本身,更好地管理IT設施、優化運維,實現IT服務等級承諾。
      優勢1:快速部署
       •在10分鍾內,離線狀態完成單個節點的安裝,並且提供節點的動態增加和刪除功能,幫助運維管理員快速建立GPU集群。   
      優勢2:五步創建應用
       •基於容器技術,秒級創建GPU應用,如Caffe、Tensorflow;
       •系統級負載均衡,冗餘支持;
       •運行狀態實時監控,節點故障快速遷移。    
      優勢3:鏡像定制/分發平台
       •很多用戶會使用自己需要的平台,比如基於某個操作系統,不同機器學習框架,開放不同服務端口。我們針對不同的軟件會提供不同的應用模板,方便用戶選擇操作系統後,再選擇需要的應用(比如SSH、Tensorflow、Caffe...),那之後即可生成需要的應用,並發布到平台內,可以供平台調用使用。     
      優勢4:自我故障恢複
       •一旦應用發生故障,集群會通知客戶異常狀態,並試圖重新恢複應用為可用狀態。特別是在關鍵的多副本的應用中,單個節點發生故障時,集群會將應用遷移到其它節點上,不會影響到我們的服務。   
      優勢5:節點規模動態擴展
       •節省初期投資成本,根據開發需求不斷擴展節點,節點增加集群不停止,並且實現系統負載均衡。
 
 解決方案
 
 

 方案優勢特點

    •已在多個項目中得到實際驗證,最大的節點規模可以至上千個節點。
    •在底層系統的驅動和軟件庫層面進行了足夠的性能優化,可以充分發揮GPU集群的性能。
    •核心技術是基於最近幾年興起的容器技術,在應用部署上可以達到秒級創建
    •針對不同深度學習框架,通過鏡像定制和分發平台,幫助用戶實現定制化鏡像和應用
    •提供深度學習的算法庫(LeNet、MLSTM、Alexnet、Googlenet、ResNet、GAN、Faster R-CNN...)、標准數據集(ImageNet、COCO、PASCAL VOC、CIFAR、Open Image、Youtube-8M...)以及Demo演示程序(人臉識別門禁、手寫數字識別、快速多目標識)
 
客戶價值
快速部署

一鍵部署,快速搭建深度學習訓練集群
節省投資
1.提高IT設備利用率,按需分配
2.節省研發時間,縮減研發成本
提高效率
支持分布式,顯著提高訓練速度
教學實訓
降低技術門檻,聚焦深度學習算法,加快科研速度
 
 成功案例  
       某人工智能科研機構:
   •需求概述
       部署了20台GPU集群環境,每台超级变态传奇承載4塊GPU卡
       需要一套集群管理系統,解決從集群部署到資源分配和監控的整個生命周期內的問題
       機器學習的架構和算法眾多,後台數據較多
       優勢是算法實現,但缺少運行平台搭建經驗

   •解決方案
       部署了超级变态传奇機器學習平台後,圖形化地部署、運行、監控容器(Container),並且集群能夠提供高可用、可伸縮、負載均衡等特性
       可靈活切換不同的機器學習架構(Caffe、Tensorflow、Keras等)
       Tensorflow分布式運行,效率很高