5G セルラー、データセンター、オートモーティブ、インダストリアルなど、急速に進化している多くの市場では、電力効率を維持しながら、演算処理を高速化させる技術が求められています。ムーアの法則やスケーリング則が限界を迎えた現在では、次世代シリコン ノードへ進化するだけでは、かつての世代のように高性能、低コスト、低消費電力のメリットを得ることができません。
ワイヤレス ビームフォーミングや機械学習推論など、次世代アプリケーションによるこのような非線形な需要の増加に対応するため、AMD は、Versal™ ACAP (Adaptive Compute Acceleration Platform) アーキテクチャの一部となる革新的プロセッシング技術の AI エンジンを開発しました。
AI エンジンは、複数の AI エンジン タイルを二次元に配列したものです。単一デバイスに数十から数百個の AI エンジンを搭載した Versal ポートフォリオを利用することで、多様なアプリケーションの演算要件に応えることができ、拡張性も備えることができます。メリットは以下のとおりです。
ソフトウェア プログラマビリティ
確定的
効率的
各 AI エンジンには、機械学習や最先端信号処理アプリケーションに最適化された VLIW (Very Long Instruction Word) SIMD (Single Instruction Multiple Data) ベクター型プロセッサが内蔵されています。AI エンジンのプロセッサは、最大 1.3GHz で動作するため、電力効率が良く、高スループットかつ低レイテンシの機能を実現できます。
各タイルには VLIW ベクター型プロセッサのほかに、必要な命令を格納するプログラム メモリ、データ、重み、アクティベーションや、係数を格納するローカル データ メモリ、RISC スカラー プロセッサ、さらには多様なデータ通信に対応するための異なるインターコネクトが含まれます。
AMD は、AIE と AIE-ML (機械学習用 AI エンジン) の 2 種類の AI エンジンを提供しており、いずれも前世代 FPGA より優れた性能を提供します。AIE は、ML 推論アプリケーションのワークロードから、ビームフォーミング、レーダーなど大量のデータ フィルタリングや変換を必要とする高度な信号処理ワークロードまで、より広範なワークロードを高速化できます。強化された AI のベクター拡張機能と AI エンジン アレイ内における共有メモリによって、AIE-ML は ML 推論に特化したアプリケーションにおいては AIE より優れた性能を発揮し、一方 AIE は特定種類の高度な信号処理においては AIE-ML より優れた性能を発揮します。
AIE は、AL 推論アプリケーションのワークロードや、ビームフォーミング、レーダー、FFT、フィルタリングなどの高度な信号処理ワークロードまで広範なワークロードを高速化できます。
多様なワークロード/アプリケーションをサポート
実数、複素数、浮動小数点データ型をネイティブ サポート
FFT と FIR の実装に使用する専用の HW 機能
詳細は、Versal ACAP AI エンジン Aアーキテクチャ マニュアルをご覧ください。
AI エンジン-ML のアーキテクチャは、演算コアとメモリ アーキテクチャの両方を重視し、機械学習に最適化されています。ML と高度な信号処理の両方に対応できますが、レーダー処理で一般的な INT32 と CINT32 のサポートを排除して最適化されているため、ML に特化したアプリケーションで高性能を発揮します。
ML データ型のネイティブ サポートを拡張
低レイテンシで 2 倍の ML 演算性能
アレイ メモリを増加してデータをローカライズ
Versal ACAP (Adaptive Compute Acceleration Platform)上で密接に統合された AI エンジン、適応型エンジン (プログラマブル ロジック)、およびスカラー エンジン (プロセッサ サブシステム) がヘテロジニアス アーキテクチャを形成しています。これらはハードウェアとソフトウェアのいずれのレベルでも変更可能で、幅広いアプリケーションやワークロードのニーズに動的に適応させることが可能です。
Versal ACAP アーキテクチャは、ソフトウェア プログラマビリティを備えるようゼロから構築されており、柔軟でマルチテラビット/秒のネットワーク オン チップ (NoC) ですべてのエンジンと主要インターフェイスをシームレスに統合することで、ソフトウェア開発者、データサイエンティスト、ハードウェア開発者は起動してすぐに利用でき、簡単にプログラムできるようになっています。
Versal™ AI コア シリーズは、今日のサーバークラス CPU の 100 倍以上の演算性能を提供する AI エンジンによって AI 推論と無線通信を格段に高速化します。Versal ポートフォリオの中で最も高い演算能力を備えているため、Versal AI コアは、データセンターの演算処理、ワイヤレス ビームフォーミング、ビデオ/画像処理、ワイヤレステスト装置などのアプリケーションに最適です。
Versal AI エッジ シリーズは、電力や熱管理に制約のあるエッジ ノード環境で、最新 GPU と比べて 4 倍のワットあたり AI 性能を実現します。センサーから AI、リアルタイム制御まで、アプリケーション全体を高速化する Versal AI エッジ シリーズは、インテリジェント センサーやエッジ コンピューティングに最適なクラス最高のスケーラブルなポートフォリオを提供します。またハードウェアの適応性も備えているため、リアルタイム システムの AI 技術を進化させることができます。
画像/ビデオの解析が、データセンターの処理量を爆発的に増加させています。たたみ込みニューラル ネットワーク(CNN)を使用するワークロードでは、膨大な計算量を要し、数テラ OPS に達する場合も少なくありません。AI エンジンは、この演算密度を少ないコストと消費電力で効率よく実現できるように最適化されています。
5G は、極めて低いレイテンシで最高クラスのスループットを提供できるため、信号処理にかかる負荷が大幅に増加します。AI エンジンは、ネットワーク容量を増やすために Massive MIMO パネルで使用される高度なビームフォーミング技術のように、比較的低消費電力の RU (Radio Unit) や DU (Distributed Unit)でリアルタイム信号処理を実行することが可能です。
画像解析には、たたみ込みニューラル ネットワーク (CNN) と呼ばれるフィード フォワード型のディープ ニューラル ネットワークが最もよく使用されます。自動運転車やビデオ監視などあらゆる用途にコンピューターが利用されるようになった現在、CNN は欠かせない技術となっています。AI エンジンは、温度に対する厳しい要件を満たす必要がある小型システムで必要とされる高密度かつ高効率を提供します。
処理能力の優れたベクター型 DSP エンジンと AI エンジンを小型フォーム ファクターに搭載することで、フェーズド アレイ レーダー、早期警戒 (EW)、MILCOM、無人機などの A&D 分野の幅広いシステムを実現します。マルチミッション ペイロードの信号処理、信号調整、AI 推論などの多様なワークロードをサポートする AI エンジンは、これらのミッション クリティカル システムの厳しい SWaP (サイズ、重量、電力)要件を満たす演算効率を実現します。
ロボットやマシン ビジョンなどの産業用アプリケーションでは、センサーフュージョンに AI/ML 技術を組み合わせて、エッジ デバイスなどの情報発生源に近い場所でデータ処理を実行します。AI エンジンは、不確実性の高い現場環境にもかかわらず、このようなリアルタイム システムで高い性能と信頼性を提供します。
ワイヤレス テスト装置には、リアルタイム DSP が広く使用されています。AI エンジンのアーキテクチャは、デジタル フロントエンドからビームフォーミングやベースバンドに至るまで、5G を含むあらゆるタイプのプロトコル実装に適しています。
AI エンジンを活用するヘルスケア アプリケーションには、超音波診断装置用の高性能並列ビームフォーマー、CT スキャナーの逆投影、MRI 装置の画像再構成技術のオフロード、さまざまな臨床/診断アプリケーションでの診断支援などがあります。
AI エンジンは、ソフトウェア プログラマブルとハードウェア アダプタブルを兼ね備えた革新的なエンジンです。開発者は、わずか数分でコンパイルを完了し、異なるマイクロアーキテクチャをすばやく探索しながら、これらの演算エンジンの性能を最大限に引き出すことができる 2 種類のフローがあります。2 つの設計フローは次のとおりです。
AMD は、Vitis アクセラレーション ライブラリでビルド済みカーネルを提供しています。主に、次のような利点があります。
ソフトウェア/ハードウェア開発者は、ベクター プロセッサベースの AI エンジンを直接プログラミングし、必要に応じて C/C++ コードのビルド済みライブラリを呼び出すことができます。
AI データ サイエンティストは、PyTorch や TensorFlow などの使い慣れたフレームワーク環境を使用して、AI エンジンを直接プログラミングしなくても、Vitis AI を介してビルド済みの ML オーバーレイを呼び出すことができます。
AI エンジンのアーキテクチャは、データフロー技術に基づいて構築されています。プロセッシング エレメント (PE) は、10 ~ 100 個のタイルが配列されたもので、演算ユニット全体を管理する 1 つのプログラムを作成します。タイル全体に対して並列処理を指定するために、設計者が指示子を埋め込むことは作業はほとんど不可能です。この問題を解決するために、AI エンジンの設計を 2 段階で行います。まず、1 つのカーネルを開発します。その後、ADF (適応型データフロー)グラフを作成して、カーネルをアプリケーション全体に接続します。
Vitis 統合設計環境 (IDE) では、C/C++ プログラミング コードを使用して AI エンジンのシングル カーネルを設計したり、ADF グラフを設計できます。この環境では、次のことを実行できます。
デフォルトでは、1 つの AI エンジン タイル上で 1 つのカーネルが動作します。ただし、アプリケーションで許容される限り、同じ AI エンジン タイル上で複数カーネルを動作させて処理時間を短縮できます。
次に概念的な例を示します。
Vitis IDE を利用することで、大規模なシステムに AI エンジン デザインを統合できます。一つの統合環境でシミュレーション、ハードウェア エミュレーション、デバッグ、運用までを実行できます。
AMD の Vitis™ 統合ソフトウェア プラットフォームは、包括的なコア開発キットとハードウェア アクセラレーション テクノロジを使用するライブラリを提供します。まずは、Vitis 統合ソフトウェア プラットフォームをダウンロードします。
Vitis GitHub および AI エンジン開発のページでは、AI エンジンに関するチュートリアルを多数公開しています。テクノロジの概要や設計手法について理解を深めることができます。
コンパイラとシミュレータを含む AI エンジン ツールは、Vitis IDE に統合されており、追加のライセンスが必要です。AI エンジン ツールおよびライセンスへのアクセス方法に関するお問い合わせは、営業にお問い合わせページをご利用ください。
AMD の Vitis Model Composer は、Simulink® および MATLAB® 環境でデザインを短時間で試行できるモデル ベースのデザイン ツールです。これにより、RTL および HLS ブロックを AI エンジン カーネルやグラフと一体化させて同じシミュレーションに組み込むことができるため、AI エンジン ADF グラフ開発やシステムレベルでのテストが効率化されます。DSP エンジニアは、Simulink や MATLAB 環境の信号生成や可視化機能を活用できる上に、使い慣れた環境で設計やデバッグを行うことができます。Versal AI エンジンを Vitis Model Composer で活用する方法は、AI エンジン リソース ページをご覧ください。
VCK190 キットは、Versal™ AI コア シリーズをベースとしており、現サーバークラス CPU の 100 倍以上の演算性能を持つ AI エンジンや DSP エンジンを使用したソリューションを開発できます。この評価キットには、設計を始めるために必要なものがすべて含まれています。
Versal AI コア シリーズ VCK190 評価キットの詳細 >
また、データセンターの高スループット AI 推論用に構築された、AI エンジン搭載 PCIe ベースの VCK5000 開発カードもご利用いただけます。
AMD のトレーニングおよび資料は、開発者が次回の Versal ACAP 開発プロジェクトで十分な生産性を発揮できるように実践的スキルと基礎知識を提供します。対象コースは次のとおりです。
ソリューション計画から、システム統合、検証まで、AMD は設計の生産性を最大限に高めるために、Versal ACAP 関連の膨大な資料の中から必要なリソースをカスタマイズして提供します。Versal ACAP デザイン ハブにアクセスして、デザインのニーズに合った最新コンテンツを入手し、AI エンジンの機能や設計手法を習得できます。
YouTube チャンネル 「Adaptive Computing Developer」 では、AI Engine A-to-Z シリーズをはじめとする AI エンジンに関するビデオやチュートリアルなど、開発者向けのコンテンツをご用意しています。
アダプティブ コンピューティング開発者チャンネルはこちらをご覧ください。
洞察力に富んだブログ シリーズでは、AI エンジンの設計フローを順を追って説明しています。Vitis ツールの起動から、グラフの設計を含む最初の AIE カーネルの設計、シミュレーショイン、デバッグ、および実際のハードウェア上での実行まで。
Versal™ ACAP デザイン ハブは、設計段階に応じた Versal ACAP 関連資料へとナビゲートする画期的なオプションです。AI エンジンおよび設計フローについて理解を深めることができます。