成果公開
Publication

産総研ABCIを活用し、世界最速の量子回路シミュレーションに成功
大規模な量子計算を誰もが試すことができるオープンなクラウド型計算システム実現に向けて前進
2022年12月19日

ポイント
  • GPUに最適化された世界最速の41量子ビット量子回路シミュレーションを実施
  • NVIDIAが開発した量子回路シミュレータを産総研ABCI上で実行して高速化を実現
  • 成果を活用した量子・古典ハイブリッド計算テストベッドの構築を推進

産総研ABCI上で量子回路シミュレーションを実現

概要

NVIDIA Corporation(以下「NVIDIA」という)と、国立研究開発法人 産業技術総合研究所(以下「産総研」という)デジタルアーキテクチャ研究センター 高野 了成 副連携研究室長および滝澤 真一朗 主任研究員は共同で、世界最速の量子回路シミュレーションに成功しました。
AI橋渡しクラウド(以下「ABCI」という)を用いることで、スーパーコンピュータの技術を用いて開発された従来の量子回路シミュレータと比較して、実行時間が3倍向上しました。また、GPUを用いた量子回路シミュレータとしては、世界最大規模である41量子ビットのシミュレーションを実施しました。本技術は、実用的な量子コンピュータの実現に先行して、量子アルゴリズムやアプリケーションの研究開発に役立ちます。開発した量子回路シミュレータはNVIDIAによりcuQuantumアプライアンスとして公開されており、ABCI上で誰もが利用可能になっています。

開発の社会的背景

複雑化する社会の課題を解決し、経済・環境・社会が調和した未来社会を実現するために、従来の古典コンピュータと比べて指数的な計算速度の向上が期待される量子コンピュータの研究開発が進んでいます。しかし、計算できる問題規模と信頼性の課題から実用に耐える量子コンピュータの実現は数十年以上先になるため、古典コンピュータを用いた量子回路シミュレーションが注目されています。特に実用的なアルゴリズム・アプリケーションの効果が検証できる大規模な量子回路シミュレーションは、量子アルゴリズムの先行的な開発・検証を可能にします。
このような背景から、小規模な量子回路シミュレーションは商用クラウドシステムでも試験的な提供が始まっています。しかし、大規模な量子回路シミュレーションは、大学や研究機関におけるスーパーコンピュータを用いた研究に留まっており、広く利用可能な開かれた状態にはなっていませんでした。

研究の経緯

NVIDIAは、GPUに最適化した量子回路シミュレータの高速化を目指して、cuQuantumソフトウェア開発キットの開発を進めており、スーパーコンピュータ上での大規模な量子回路シミュレーション実行について、今秋9月のGTC Fall 2022にて最初の発表を行いました。産総研は、スーパーコンピュータ由来の技術を用いて、高速かつ高度なAI学習、大量データの高速な処理を実現するクラウド型計算システムABCIを開発してきました(2018年6月26日 産総研プレス発表)。今回、NVIDIAと産総研は、2022年度第2回ABCIグランドチャレンジ課題「GPUを用いた大規模量子回路シミュレーション」において、ABCI計算ノード(A) 64台(GPU 512基)で構成した量子回路シミュレーションを実行し、その有効性を実証しました。

研究の内容

量子回路シミュレーションでは、量子状態をメモリ上に保存するため、必要なメモリ量が量子ビット数に対して指数的に増加します。例えば40量子ビットをシミュレーションするには約18テラ(テラは1兆)バイトのメモリが必要になります。さらにこれに1量子ビットを加えた41量子ビットにするだけで、2倍の約36テラバイトのメモリが必要になります。このように、より多くの量子ビットを扱うためには、1台のコンピュータに搭載されるメモリでは足りないため、複数台のコンピュータに計算を分割して並列実行することが必要となります。このような大規模量子回路シミュレーションは、従来はCPUによる計算が主流であり、近年性能向上が著しいGPUを活用できていませんでした。
NVIDIAは複数のGPUを活用して量子回路シミュレーションを高速化するcuQuantumアプライアンスを開発しています。これはGPUに最適化された量子回路シミュレーションを実行するために必要となるオペレーティングシステムやソフトウェアを一体化したソフトウェアパッケージです。なお、現在のcuQuantumアプライアンスは、IBMが開発するQiskit Aer量子回路シミュレータを採用しています。
今回の大規模量子回路シミュレーションは、ABCI計算ノード(A) 64台を使い、cuQuantumアプライアンスを並列実行することで実現しました。ABCI計算ノード(A)は、それぞれ8基のNVIDIA A100 GPU(40GB内部メモリ搭載)と2基の第3世代Intel Xeonスケーラブルプロセッサー(開発コード: Ice Lake) 、NVMe SSD 2基、512GiB DDR4メモリを備えています。さらに計算ノード(A)間はInfiniBand HDR (200Gbps) 4本で接続しています。
このような多数の計算ノード、GPUから構成される大規模計算システムにおいて、任意のGPU間で高い通信性能を達成するのは困難です。産総研では、ABCI計算ノード(A)において、GPU間通信性能を向上・最適化する手法の技術開発を行なっており、今回はその成果の一部を活用しました。
今回は、量子ボリューム(深さ10および30)、量子位相推定量子近似最適化アルゴリズムといったよく知られている3つの量子回路のベンチマークを実行しました。この結果、例えば35量子ビットの場合、最新のCPUを使って約20〜30分かかっていたシミュレーションを10〜15秒まで高速化できました(図1)。

図1 32から41量子ビットでの量子回路シミュレーション実行時間(Complex128使用時)

また、本量子回路シミュレータは、量子ビットの状態を128ビット複素数型(Complex128)と64ビット複素数型(Complex64)の2種類の精度で計算できます。Complex64を用いることでシミュレーションに必要なメモリ量を半減することが可能ですが、大規模シミュレーションにおいて十分な精度が保証できるかは自明ではなく、従来のシミュレータではComplex128を用いることが一般的でした。今回の実験では、Complex128における40量子ビット、およびComplex64における41量子ビットのシミュレーション実行を実施しました(図2)。今後、実行結果の解析を進め、Complex64でも実用上十分な精度があることを確認します。

図1 32から41量子ビットでの量子回路シミュレーション実行時間(Complex128使用時)

なお、この技術の詳細は、2022年12月15日にNVIDIA テクニカルブログ「Best-in-Class Quantum Circuit Simulation at Scale with NVIDIA cuQuantum Appliance」に掲載されています。

今後の予定

量子コンピュータへの期待が高まる中、GPUの高速性を活かした大規模量子回路シミュレータはますますその重要性が増しています。今回の成果は、GPUを用いた大規模量子回路シミュレーションに先鞭をつけるものであり、今後の量子回路シミュレーションやこれを活用した量子アルゴリズム開発の新たな可能性を拓くものになることを期待します。本成果は、NVIDIAにより、NGC CatalogにてcuQuantumアプライアンスとして公開されており、ABCIで利用可能になっています。さらに産総研では、さまざまな量子コンピュータを誰もが試験的に利用し、その効果を検証できるオープンな量子・古典ハイブリッド計算テストベッドを、本成果を含むABCIの技術をもとに構築する予定です。

用語解説

量子コンピュータ

量子力学的な原理に基づいて演算の制御を行うようなコンピュータのこと。従来のコンピュータは古典力学的な原理に基づくため、「古典コンピュータ」として区別される。

量子回路シミュレータ

量子コンピュータを古典コンピュータ上で模擬するソフトウェアのことであり、量子アルゴリズムを古典コンピュータ上で実行・検証することが可能になる。量子回路シミュレータには、状態ベクトル方式とテンソルネットワーク方式の2種類の方式があるが、今回は回路構成に制約のない、状態ベクトル方式を対象としている。

ABCI

AI橋渡しクラウド(AI Bridging Cloud Infrastructure)。産総研が構築・運用する世界最大規模の人工知能処理向け計算インフラストラクチャー。
https://abci.ai/ja

ABCIグランドチャレンジ

ABCIを利用した人工知能分野の最重要課題への挑戦を促進するため、産総研が実施する公募型チャレンジプログラム。採択課題には、ABCIがもつ最大計算ノード数、計算ノード(A)においては120ノード(960GPU)、計算ノード(V)においては1088ノード(4352GPU)、最長24時間の利用権が与えられる。

GPU(Graphics Processing Unit)

本来はコンピューターグラフィックス専用のプロセッサーだったが、グラフィックス処理が複雑化するにつれて性能や汎用(はんよう)性が増し、現在では高性能計算向けの汎用ベクトル・行列演算プロセッサーに進化している。

量子ボリューム(QV: Quantum Volume)

量子コンピュータの性能を測る指標のひとつ。多くの量子ビットで、深い(実行に多くのステップ数がかかる)量子回路を動作させられるほど、量子コンピュータが高性能であることを示す。

量子位相推定(QPE: Quantum Phase Estimation)

素因数分解や連立一次方程式の解法など、多くの量子アルゴリズムの基礎に使われている基本アルゴリズムのひとつ。量子コンピュータが古典コンピュータよりも指数的に高速に解が得られると期待されている。

量子近似最適化アルゴリズム(QAOA: Quantum Approximate Optimization Algorithm)

量子コンピュータを用いて組合せ最適化問題(与えられた条件を満たしつつ、選べる組合せの中から一番良いものを探す問題)の解を求めるためのアルゴリズム。初期状態に対して何らかの量子力学的操作を行うことで最適化計算が実行される。

NCG Catalog

NVIDIA社製GPUに最適化されたAI/HPC 向けソフトウェア、学習済みAIモデル等を公開している、NVIDIAが運営するサイト。
https://catalog.ngc.nvidia.com/