CMCのスーパーコンピュータOCTOPUSは、利用者からのスカラ型スーパーコンピュータに対する様々な計算ニーズ・需要を収容可能であり、利用者に定常的かつ安定的に高い性能を提供することが期待される中、2017年12月に導入されました。本格運用開始から非常に高い利用率で利用される状況になっています。しかし、その一方で、利用者の計算要求から計算完了までの待ち時間が定常的に長時間になるという新たな問題が深刻になりつつあり、利用者からの問い合わせ・相談の声も大きくなりつつあります。
このような視点から、大阪大学では他社クラウドを活用した仮想化計算資源を利用したクラウドバースティング技術をすでに開発済みですが、OCTOPUSを利用する研究者からはOCTOPUSと同様の計算環境としてベアメタル計算資源への高い関心と強い要求があります。一方、OCIでは、RoCEv2(RDMA over Converged Ethernet version 2) ※7やGPU、NVMe SSDを搭載したベアメタルマシンおよび仮想マシンを提供しており、ベアメタルマシンも仮想マシンと同様にオンデマンドに必要な時に起動し、不要な場合は停止するHPC環境を構築することが可能です。また、最新のCPU、GPU、高性能なノード間通信等のHPC関連技術がリリースされた際には、対応するベアメタルマシンおよび仮想マシンが迅速に提供されます。さらに一般的にHPC用途では多くの分野でデータが大きくなる傾向があるため、CMCと商用クラウドサービスのデータセンターとの間で発生する転送データ量にかかるコストも課題でしたが、OCIでは学術情報ネットワークSINET (Science Information NETwork)※8を介する通信および専用ネットワーク接続サービスのOracle Cloud Infrastructure FastConnectを利用することで、転送データ量が無制限に無料となることも大きなメリットです。このため、HPC分野における大型計算機のオフロード用途において適していると考えられます。
そのような背景と、今日の新型コロナウイルス感染症の拡大状況を鑑み、大阪大学サイバーメディアセンター 伊達准教授らの研究グループは、CMCのOCTOPUSの負荷をOCIのベアメタル計算機資源を含むIaaS型クラウドサービス上にオフロードするOCTOPUSのクラウドバースティング機能を開発しました。
今回OCIのベアメタルの計算資源拡充開発においては、Oracle for Researchにて提供されるリソースを用いてコストおよび性能の観点で検証が行われ、優れた成果が得られています。
コスト最適化:クラウドバースティング技術により大幅に計算待ち時間を削減することが可能になるのに加えて、オフロードされる計算要求に応じてジョブサーバがOCIの計算資源の作成/起動、削除/停止する機能を実装したことで、OCIの利用料を最小化できることを確認できました。これによりシステム全体の計算資源利用の向上と、クラウド利用のコスト最適化の両立を図ることが可能となりました。
性能
1、オンプレミスの計算機と同様の計算能力:OCTOPUSのユーザが利用するアプリケーションやライブラリの中には、仮想マシンのハイパーバイザやハイパースレッド設定などの影響で、計算精度や計算時間がユーザの要望を満たせないものも含まれます。検証では、それらのアプリケーションやライブラリに対して、ハイパーバイザが無く、ハイパースレッドが無効となっているOCIのベアメタル計算資源であれば、オンプレミスのOCTOPUS計算ノードと同様にユーザの計算要求を実行出来ることが確認されました。この結果から、クラウドコンピューティングでより多くのOCTOPUSユーザの計算要求に応えられることが期待できます。
2、RDMA環境での性能:OCTOPUSでは複数の計算ノードを用いた並列計算処理が多数実行されています。並列計算の実行においては、ノード間通信が広帯域かつ低遅延であることに加え、ノードの組合せによるバラツキが小さいことが重要です。今回OCIのベアメタル計算資源へのクラウドバースティング 技術の応用に先立ち行われたRDMA性能評価試験では、OCIのHPCインスタンス8ノードでRDMA網のノード間の通信遅延を計測したところ、帯域で91.16Gbpsから92.72Gbps、通信遅延はRoCEv2※7レベルで1.44マイクロ秒から1.62マイクロ秒、OpenMPIを用いた計測では1.63マイクロ秒から1.65マイクロ秒の範囲に収まっていることが確認されました。この結果をもとに、将来的にOCTOPUSクラウドバースティングの計算資源としてこのRDMA通信環境も利用できる機能拡充を進め、多くの計算ノードを利用する並列計算においてクラウド計算資源を利用した場合でも高いスケーラビリティが得られることが期待できます。
これらの検証結果により、OCIのベアメタル計算資源としての活用がOCTOPUSスーパーコンピュータを利用する研究者に対して有用であることが確認でき、多種多様な計算要求を充足可能なクラウド連動型計算資源の一つの形を実現しました。今後、本研究成果を活用し、OCTOPUS-OCIクラウドバースティング環境で利用可能なベアメタル計算資源提供を通じた、新型コロナウイルス感染症対策向けを含めた支援を行なっていきます。