AMD AI エンジン テクノロジ

高い演算密度と高いシリコン効率で実現するヘテロジニアス アクセラレーション

概要

AI エンジン: 次世代アプリケーションの演算処理要件に応える

5G セルラー、データセンター、オートモーティブ、インダストリアルなど、急速に進化している多くの市場では、電力効率を維持しながら、演算処理を高速化させる技術が求められています。ムーアの法則やスケーリング則が限界を迎えた現在では、次世代シリコン ノードへ進化するだけでは、かつての世代のように高性能、低コスト、低消費電力のメリットを得ることができません。

ワイヤレス ビームフォーミングや機械学習推論など、次世代アプリケーションによるこのような非線形な需要の増加に対応するため、AMD は、Versal™ ACAP (Adaptive Compute Acceleration Platform) アーキテクチャの一部となる革新的プロセッシング技術の AI エンジンを開発しました。

versal-ai-edge-diagram-1

AI エンジンのアーキテクチャ

AI エンジンは、複数の AI エンジン タイルを二次元に配列したものです。単一デバイスに数十から数百個の AI エンジンを搭載した Versal ポートフォリオを利用することで、多様なアプリケーションの演算要件に応えることができ、拡張性も備えることができます。メリットは以下のとおりです。

ソフトウェア プログラマビリティ

  • C 言語でプログラム可能、数分でコンパイル
  • ML フレームワーク開発者向けのライブラリベース デザイン

確定的

  • 命令用とデータ用にそれぞれ専用のメモリ
  • DMA エンジンを組み合わせた専用のコネクティビティにより、AI エンジン タイル間のコネクティビティを使用してスケジュールに基づくデータ移動が可能

効率的

  • 特に DSP および ML の場合、従来のプログラマブル ロジックへインプリメントする場合に比べ、AI エンジンは消費電力を公称 40% 削減しながらシリコン面積あたりの演算密度を最大 8 倍に高めます。
versal-ai-engine

AI エンジン タイル

各 AI エンジンには、機械学習や最先端信号処理アプリケーションに最適化された VLIW (Very Long Instruction Word) SIMD (Single Instruction Multiple Data) ベクター型プロセッサが内蔵されています。AI エンジンのプロセッサは、最大 1.3GHz で動作するため、電力効率が良く、高スループットかつ低レイテンシの機能を実現できます。

各タイルには VLIW ベクター型プロセッサのほかに、必要な命令を格納するプログラム メモリ、データ、重み、アクティベーションや、係数を格納するローカル データ メモリ、RISC スカラー プロセッサ、さらには多様なデータ通信に対応するための異なるインターコネクトが含まれます。

ai-engine-tile

ヘテロジニアス ワークロード: 信号処理と機械学習推論の高速化

AMD は、AIE と AIE-ML (機械学習用 AI エンジン) の 2 種類の AI エンジンを提供しており、いずれも前世代 FPGA より優れた性能を提供します。AIE は、ML 推論アプリケーションのワークロードから、ビームフォーミング、レーダーなど大量のデータ フィルタリングや変換を必要とする高度な信号処理ワークロードまで、より広範なワークロードを高速化できます。強化された AI のベクター拡張機能と AI エンジン アレイ内における共有メモリによって、AIE-ML は ML 推論に特化したアプリケーションにおいては AIE より優れた性能を発揮し、一方 AIE は特定種類の高度な信号処理においては AIE-ML より優れた性能を発揮します。

heterogeneous-workloads

AI エンジン タイル

AIE は、AL 推論アプリケーションのワークロードや、ビームフォーミング、レーダー、FFT、フィルタリングなどの高度な信号処理ワークロードまで広範なワークロードを高速化できます。

多様なワークロード/アプリケーションをサポート

  • 通信向けの高度な DSP
  • ビデオおよび画像処理
  • 機械学習の推論

実数、複素数、浮動小数点データ型をネイティブ サポート

  • INT8/16 固定小数点
  • CINT16 と CINT32 の複素数固定小数点
  • FP32 浮動データ小数点

FFT と FIR の実装に使用する専用の HW 機能

  • 128 INT8 MAC/ タイル

詳細は、Versal ACAP AI エンジン Aアーキテクチャ マニュアルをご覧ください。

ai-engine-tile-1
versal-ai-edge-diagram-5

AI エンジン-ML タイル​

AI エンジン-ML のアーキテクチャは、演算コアとメモリ アーキテクチャの両方を重視し、機械学習に最適化されています。ML と高度な信号処理の両方に対応できますが、レーダー処理で一般的な INT32 と CINT32 のサポートを排除して最適化されているため、ML に特化したアプリケーションで高性能を発揮します。

ML データ型のネイティブ サポートを拡張

  • INT4​
  • BFLOAT16​

低レイテンシで 2 倍の ML 演算性能

  • 512 INT8 MAC/ タイル
  • 256 INT8 MAC/ タイル

アレイ メモリを増加してデータをローカライズ

  • 各タイルのローカル データ メモリを 2 倍に拡大 (64kB)
  • 新しいメモリ タイル (512kB) で HBW 共有メモリ アクセスが可能
ai-engine-tile-2
versal-ai-edge-diagram-6

ヘテロジニアス プラットフォームの一部

Versal ACAP (Adaptive Compute Acceleration Platform)上で密接に統合された AI エンジン、適応型エンジン (プログラマブル ロジック)、およびスカラー エンジン (プロセッサ サブシステム) がヘテロジニアス アーキテクチャを形成しています。これらはハードウェアとソフトウェアのいずれのレベルでも変更可能で、幅広いアプリケーションやワークロードのニーズに動的に適応させることが可能です。

Versal ACAP アーキテクチャは、ソフトウェア プログラマビリティを備えるようゼロから構築されており、柔軟でマルチテラビット/秒のネットワーク オン チップ (NoC) ですべてのエンジンと主要インターフェイスをシームレスに統合することで、ソフトウェア開発者、データサイエンティスト、ハードウェア開発者は起動してすぐに利用でき、簡単にプログラムできるようになっています。

heterogeneous-platform

Versal ポートフォリオの製品

AI エンジンと AI エンジン-ML は、Versal AI コア デバイスと Versal AI エッジ デバイスで利用できます。

Versal AI コア シリーズ

versal-aicore-chip

Versal™ AI コア シリーズは、今日のサーバークラス CPU の 100 倍以上の演算性能を提供する AI エンジンによって AI 推論と無線通信を格段に高速化します。Versal ポートフォリオの中で最も高い演算能力を備えているため、Versal AI コアは、データセンターの演算処理、ワイヤレス ビームフォーミング、ビデオ/画像処理、ワイヤレステスト装置などのアプリケーションに最適です。

Versal AI エッジ シリーズ

versal-aiedge-chip

Versal AI エッジ シリーズは、電力や熱管理に制約のあるエッジ ノード環境で、最新 GPU と比べて 4 倍のワットあたり AI 性能を実現します。センサーから AI、リアルタイム制御まで、アプリケーション全体を高速化する Versal AI エッジ シリーズは、インテリジェント センサーやエッジ コンピューティングに最適なクラス最高のスケーラブルなポートフォリオを提供します。またハードウェアの適応性も備えているため、リアルタイム システムの AI 技術を進化させることができます。

アプリケーション

クラウド、ネットワーク、エッジで無線処理から機械学習までの多様なワークロードに対応する AI エンジン

5G 無線/ビームフォーミング

データセンターの演算

画像/ビデオの解析が、データセンターの処理量を爆発的に増加させています。たたみ込みニューラル ネットワーク(CNN)を使用するワークロードでは、膨大な計算量を要し、数テラ OPS に達する場合も少なくありません。AI エンジンは、この演算密度を少ないコストと消費電力で効率よく実現できるように最適化されています。


5G の無線処理

5G は、極めて低いレイテンシで最高クラスのスループットを提供できるため、信号処理にかかる負荷が大幅に増加します。AI エンジンは、ネットワーク容量を増やすために Massive MIMO パネルで使用される高度なビームフォーミング技術のように、比較的低消費電力の RU (Radio Unit) や DU (Distributed Unit)でリアルタイム信号処理を実行することが可能です。

データセンターの計算

5G 無線/ビームフォーミング

ADAS および自動運転

画像解析には、たたみ込みニューラル ネットワーク (CNN) と呼ばれるフィード フォワード型のディープ ニューラル ネットワークが最もよく使用されます。自動運転車やビデオ監視などあらゆる用途にコンピューターが利用されるようになった現在、CNN は欠かせない技術となっています。AI エンジンは、温度に対する厳しい要件を満たす必要がある小型システムで必要とされる高密度かつ高効率を提供します。


航空宇宙/防衛

処理能力の優れたベクター型 DSP エンジンと AI エンジンを小型フォーム ファクターに搭載することで、フェーズド アレイ レーダー、早期警戒 (EW)、MILCOM、無人機などの A&D 分野の幅広いシステムを実現します。マルチミッション ペイロードの信号処理、信号調整、AI 推論などの多様なワークロードをサポートする AI エンジンは、これらのミッション クリティカル システムの厳しい SWaP (サイズ、重量、電力)要件を満たす演算効率を実現します。

データセンターの計算

5G 無線/ビームフォーミング

産業機器

ロボットやマシン ビジョンなどの産業用アプリケーションでは、センサーフュージョンに AI/ML 技術を組み合わせて、エッジ デバイスなどの情報発生源に近い場所でデータ処理を実行します。AI エンジンは、不確実性の高い現場環境にもかかわらず、このようなリアルタイム システムで高い性能と信頼性を提供します。


ワイヤレス テスト装置

ワイヤレス テスト装置には、リアルタイム DSP が広く使用されています。AI エンジンのアーキテクチャは、デジタル フロントエンドからビームフォーミングやベースバンドに至るまで、5G を含むあらゆるタイプのプロトコル実装に適しています。

データセンターの計算

5G 無線/ビームフォーミング

ヘルスケア

AI エンジンを活用するヘルスケア アプリケーションには、超音波診断装置用の高性能並列ビームフォーマー、CT スキャナーの逆投影、MRI 装置の画像再構成技術のオフロード、さまざまな臨床/診断アプリケーションでの診断支援などがあります。

開発者

AI エンジンの開発フロー

AI エンジンは、ソフトウェア プログラマブルとハードウェア アダプタブルを兼ね備えた革新的なエンジンです。開発者は、わずか数分でコンパイルを完了し、異なるマイクロアーキテクチャをすばやく探索しながら、これらの演算エンジンの性能を最大限に引き出すことができる 2 種類のフローがあります。2 つの設計フローは次のとおりです。

  • Vitis™ IDE - ソフトウェアおよびハードウェア開発者向けの C/C++ プログラミング言語を使用する環境
  • Vitis AI - AI およびデータ サイエンティスト向けの AI/ML フレームワークを使用するフロー
versal-ai-edge-diagram-3

AI エンジン ライブラリ (ソフトウェア/ハードウェア開発者およびデータ サイエンティスト向け)

AMD は、Vitis アクセラレーション ライブラリでビルド済みカーネルを提供しています。主に、次のような利点があります。

  • 開発期間を短縮
  • AI エンジン アーキテクチャ間で移植可能 (例: AIE から AIE-ML へ)
  • AI エンジン技術をすばやく簡単に適用できる
  • 開発者は独自のアルゴリズム開発に集中できる

ソフトウェア/ハードウェア開発者は、ベクター プロセッサベースの AI エンジンを直接プログラミングし、必要に応じて C/C++ コードのビルド済みライブラリを呼び出すことができます。

DSP

dsp

線形代数

linear-algebra

通信

communication

ML Lib

ml-lib

BLAS

blas

ビジョンおよび画像

vision-image

データ ムーバー

data-movers

AI データ サイエンティストは、PyTorch や TensorFlow などの使い慣れたフレームワーク環境を使用して、AI エンジンを直接プログラミングしなくても、Vitis AI を介してビルド済みの ML オーバーレイを呼び出すことができます。


データフロー プログラミング (ソフトウェア/ハードウェア開発者向け)

AI エンジンのアーキテクチャは、データフロー技術に基づいて構築されています。プロセッシング エレメント (PE) は、10 ~ 100 個のタイルが配列されたもので、演算ユニット全体を管理する 1 つのプログラムを作成します。タイル全体に対して並列処理を指定するために、設計者が指示子を埋め込むことは作業はほとんど不可能です。この問題を解決するために、AI エンジンの設計を 2 段階で行います。まず、1 つのカーネルを開発します。その後、ADF (適応型データフロー)グラフを作成して、カーネルをアプリケーション全体に接続します。

Vitis 統合設計環境 (IDE) では、C/C++ プログラミング コードを使用して AI エンジンのシングル カーネルを設計したり、ADF グラフを設計できます。この環境では、次のことを実行できます。

  • Vitis ライブラリを使用して C/C++ でカーネルを開発し、具体的な演算関数を定義する
  • Vitis AI エンジン ツールを使用して、ADF (適応型データフロー)グラフでカーネルを接続する

デフォルトでは、1 つの AI エンジン タイル上で 1 つのカーネルが動作します。ただし、アプリケーションで許容される限り、同じ AI エンジン タイル上で複数カーネルを動作させて処理時間を短縮できます。

次に概念的な例を示します。

  • AI エンジン カーネルは C/C++ で開発されます。
  • 適応型エンジン、つまりプログラマブル ロジック (PL) にあるカーネルは、RTL で記述 (または Vitis HLS)
  • 両エンジンにあるカーネル間のデータフローは、ADF グラフを介して実行される
versal-ai-edge-diagram-4

AI エンジン デザインを一つの完全システムに統合

Vitis IDE を利用することで、大規模なシステムに AI エンジン デザインを統合できます。一つの統合環境でシミュレーション、ハードウェア エミュレーション、デバッグ、運用までを実行できます。

  1. スカラー エンジン (Arm® サブシステム)、適応型エンジン (プログラマブル ロジック)、インテリジェント エンジン (DSP および AI エンジン) など、Versal プラットフォームの異なるエンジンをターゲットとする専用のコンパイラを使用します。
  2. その後、システム コンパイラで、これらの個々のコード ブロックを関連付け、すべての相互接続を作成してコード ブロックとカスタム メモリ階層の間のデータ移動を最適化します。このツール スイートには、PCIe® ベース システム用の x86 ツールチェーンも統合されています。
  3. アプリケーションを運用する際には、ザイリンクス ランタイム ソフトウェア (XRT) のプラットフォームや OS に依存しない API を利用できるため、デバイスのコンフィギュレーション管理、メモリやホストからデバイスへのデータ転送、アクセラレータの実行が可能です。
  4. 最初のプロトタイプ品が完成したら、トランザクション レベルの高速シミュレータまたはサイクル精度シミュレータを使用してアプリケーションのシミュレーションを実行します。その後、パフォーマンス アナライザーを使用してアプリケーションを最適化し、最適なパーティショニングと性能を達成します。
  5. 要件を満たす結果を得ることができたら、Versal プラットフォーム上で運用を開始します。
versal-ai-edge-diagram-2
開発を開始

Vitis 統合ソフトウェア プラットフォームをダウンロード

AMD の Vitis™ 統合ソフトウェア プラットフォームは、包括的なコア開発キットとハードウェア アクセラレーション テクノロジを使用するライブラリを提供します。まずは、Vitis 統合ソフトウェア プラットフォームをダウンロードします。

Vitis GitHub および AI エンジン開発のページでは、AI エンジンに関するチュートリアルを多数公開しています。テクノロジの概要や設計手法について理解を深めることができます。

コンパイラとシミュレータを含む AI エンジン ツールは、Vitis IDE に統合されており、追加のライセンスが必要です。AI エンジン ツールおよびライセンスへのアクセス方法に関するお問い合わせは、営業にお問い合わせページをご利用ください。


Vitis Model Composer をダウンロード

AMD の Vitis Model Composer は、Simulink® および MATLAB® 環境でデザインを短時間で試行できるモデル ベースのデザイン ツールです。これにより、RTL および HLS ブロックを AI エンジン カーネルやグラフと一体化させて同じシミュレーションに組み込むことができるため、AI エンジン ADF グラフ開発やシステムレベルでのテストが効率化されます。DSP エンジニアは、Simulink や MATLAB 環境の信号生成や可視化機能を活用できる上に、使い慣れた環境で設計やデバッグを行うことができます。Versal AI エンジンを Vitis Model Composer で活用する方法は、AI エンジン リソース ページをご覧ください。

Vitis Model Composer をダウンロード >


評価キットまたはディプロイメント プラットフォームの購入

VCK190 キットは、Versal™ AI コア シリーズをベースとしており、現サーバークラス CPU の 100 倍以上の演算性能を持つ AI エンジンや DSP エンジンを使用したソリューションを開発できます。この評価キットには、設計を始めるために必要なものがすべて含まれています。

Versal AI コア シリーズ VCK190 評価キットの詳細 >

また、データセンターの高スループット AI 推論用に構築された、AI エンジン搭載 PCIe ベースの VCK5000 開発カードもご利用いただけます。

VCK5000 データ アクセラレータ カードの詳細 >



Versal ACAP デザイン ハブ

ソリューション計画から、システム統合、検証まで、AMD は設計の生産性を最大限に高めるために、Versal ACAP 関連の膨大な資料の中から必要なリソースをカスタマイズして提供します。Versal ACAP デザイン ハブにアクセスして、デザインのニーズに合った最新コンテンツを入手し、AI エンジンの機能や設計手法を習得できます。

Versal ACAP デザイン ハブの詳細 >


アダプティブ コンピューティング YouTube チャンネル

YouTube チャンネル 「Adaptive Computing Developer」 では、AI Engine A-to-Z シリーズをはじめとする AI エンジンに関するビデオやチュートリアルなど、開発者向けのコンテンツをご用意しています。

アダプティブ コンピューティング開発者チャンネルはこちらをご覧ください。


ブログ シリーズ - AI エンジン デザインおよびデバッグ

洞察力に富んだブログ シリーズでは、AI エンジンの設計フローを順を追って説明しています。Vitis ツールの起動から、グラフの設計を含む最初の AIE カーネルの設計、シミュレーショイン、デバッグ、および実際のハードウェア上での実行まで。

AI エンジンの設計およびデバッグに関するブログ シリーズを読む

資料

資料

Versal ACAP デザイン ハブ: AI エンジン

Versal™ ACAP デザイン ハブは、設計段階に応じた Versal ACAP 関連資料へとナビゲートする画期的なオプションです。AI エンジンおよび設計フローについて理解を深めることができます。

Versal ACAP デザイン ハブ / AI エンジン開発の詳細

デフォルト デフォルト タイトル ドキュメント タイプ 日付
ビデオ

主なビデオ


すべてのビデオ

デフォルト デフォルト タイトル 日付

AMD の製品/ソリューション関連