〇 HPCとAIの未来を切り開く、いま注目のGPUとは?
エクサスケールから読み解く技術トレンド。
Frontierを構成するHPE Cray EX235aシステムの大きなポイントになっているのが、AMDのCPU/GPUを採用していることだ。
「数年前まではプロセッサーの多様化が目立っていましたが、ここへきて急速にAMDへの一極集中が進んできました。AMDのGPUアクセラレーターについては、現時点において最も高速な演算性能を備えており、開発ロードマップも明確に示されています。AI需要が拡大するなか、スーパーコンピューター/HPC領域ではGPUアクセラレーターの市場規模が急伸していますが、なかでもとくに存在感を高めているのがAMDのGPUアクセラレーターです」
また、高橋氏がとくに注目しているのが、性能あたりのエネルギー効率だ。前述した「Green500」においても、AMD Instinct MI250Xアクセラレーターを搭載したHPE Cray EX235aシステムが1~4位を独占している。
「人によっては消費電力が低いCPU/GPUを探す方もいますが、消費電力が低く性能が低いものを並べても、結局システム全体としては、消費電力が上がる割に性能が上がらないということになってしまいます。その意味でも、サステナビリティやカーボンニュートラルの観点からも、消費電力あたりの性能を見極めることが今後重要になってくると考えています」(高橋氏)
消費電力に大きな影響を与える冷却システムについては、いまや「水冷」の実装が必須であり、近年のスーパーコンピューター/HPCのトレンドとなっている。
「HPE Cray EXスーパーコンピューターのキャビネット、およびすべてのコンポーネントは、『100%水冷』を実現しています。この仕組みは、コンポ―ネットの熱を効率的に除去できるだけでなく、冷却にかかるコストが同サイズの空冷設備に比べて大幅に削減できるというメリットがあります」(高橋氏)
加えて、HPE Cray EX235aシステムでは、HPCに最適化されたHPE独自のインターコネクト技術「HPE Slingshot」を採用しているのも特筆すべき点として挙げられる。
「HPE Slingshotは、HPC/AIアプリケーションのワークロードに最適化され、エクサスケールレベルの性能と拡張性を備えた新しいインターコネクト技術です。一般的なEthernet標準プロトコルに準拠しているので、データセンターのリソースにも容易に接続することが可能になります」(高橋氏)
HPEが高く評価するGPUアクセラレーター
ここで、HPEが高く評価しているAMDのGPUアクセラレーターについて紹介しておこう。AMDが2021年11月に発表したGPU製品ラインアップが、「AMD Instinct MI200シリーズ」だ。
「AMDのユニークなところはCPUとGPUの両方を持っている点で、GPUに関しては、これまでゲーミングの分野などでも数多く実績を残してきました。AMD Instinct MI200シリーズは、AMD CDNA™ 2アーキテクチャーを採用しており、AMD Infinity Fabric™ テクノロジーによって2つのGPUを直結したマルチダイのアクセラレーターになっているのが大きな特長です。幅広いHPC/AIワークロードに対応する最先端のアプリケーション性能を提供しています」(中村氏)
AMD Instinct MI200シリーズにはOpen Compute Project (OCP)で規定されたアクセラレーター用のモジュールパッケージ(OAM)を採用したMI250X/MI250のほかに、PCI-Express対応のインターフェイスを備えたボードタイプのMI210が用意されている。とくにHPE Cray EX235aシステムに搭載されているMI250Xアクセラレーターは、倍精度のHPCアプリケーションにおいて、他社製品に比べて最大4.9倍の性能を発揮する。
このようなハードウェア面に加えて、AMDはソフトウェア面も充実させてきている。AMD Instinct MI200シリーズでトップレベルのGPU性能をすぐに活用するためのオープンソフトウェアプラットフォーム「AMD ROCm™」を提供し、研究者や開発者はこのAMD ROCmに最適化されたHPC/AIアプリケーションや機械学習フレームワークのコンテナー、開発ツール、充実した資料などをAMD Infinity Hubを通じて容易に入手できるようになっている。
「AMD Instinct MI200シリーズは、HPC/AIアプリケーションの発展に貢献するGPUアクセラレーターです。AMDでは現在、次世代のCPUアクセラレーター『AMD Instinct MI300シリーズ』の開発も進めており、今後もHPC/AIアプリケーションのパフォーマンスと効率の向上に貢献していきます」(中村氏)
スタンドアロンから購入できるAIプラットフォーム。
ここまで主に紹介してきたHPE Cray EX235aシステムは大規模なスーパーコンピューター向けだが、HPEでは1台のスタンドアロンから購入できる高性能AIプラットフォーム「HPE Apollo 6500 Gen10 Plus System」も提供している。小規模な環境からスタートできる製品であり、アクセラレーター搭載のシステムとして国内でも多くの実績がある。GPU構成も最大10枚のAMD Instinct MI200シリーズ「MI210」が搭載できるタイプと、最大4枚のMI210が搭載できるハーフワイドのタイプが用意されており、ニーズに合わせた選択が可能だ。
またHPEは、HPC&AI向けのストレージにも非常に力を入れている。HPE Cray EXスーパーコンピューターに使われる「Cray ClusterStor E1000 Storage System」に加え、業界標準のIBM Spectrum Scaleをサポートしたコスト効率に優れた並列ストレージ「HPE Parallel File System Storage」も用意。高度なシミュレーション、AI、データ分析環境をサポートする。
さらに開発者向けのソフトウェアにおいても、データのプライバシーを確保する分散型機械学習ソリューション「HPE Swarm Learning」、機械学習モデルを簡単に実装およびトレーニングできる「HPE Machine Learning Development Environment」などを提供。こうした幅広いポートフォリオ展開をしているのがHPEの大きな強みとなっている。
「HPEは、高性能スーパーコンピューターからソフトウェアまで、HPC /AIに関連するあらゆるソリューションを幅広く提供しています。これができるのは、HPEが唯一だと自負しています」(高橋氏)
本格的なエクサスケールの時代を迎えてHPEは、自社の幅広いポートフォリオとAMDの明確な開発ロードマップのもと、さらに価値あるHPC/AIソリューションを提供してくれるに違いない。