Vitis HLS の概要

Vitis™ HLS は、C、C++、および OpenCL™ 関数を、デバイス ロジック ファブリックおよび RAM/DSP ブロックにハードワイヤできるようにする高位合成ツールです。Vitis HLS は、Vitis アプリケーション アクセラレーション開発フローでハードウェア カーネルをインプリメントし、Vivado® Design Suite で C/C++ コードを使用してザイリンクス デバイス デザイン用の RTL IP を開発するのに使用されます。

注記: Vitis HLS の詳細および既知の制限は、アンサー 75342 を参照してください。Vivado HLS ツールから Vitis HLS ツールに移行する場合は、『Vitis HLS 移行ガイド』 (UG1391) を参照してください。

Vitis アプリケーション アクセラレーション フローでは、C/C++ コードをプログラマブル ロジックにインプリメントして最適化するのに必要なコード変更の多くが Vitis HLS により自動化され、短いレイテンシ、高スループットを達成できます。ユーザーの関数引数用に正しいインターフェイスを生成し、コード内でループおよび関数をパイプライン処理するのに必要なプラグマを推論することが、アプリケーション アクセラレーション フローでの Vitis HLS の基本です。Vitis HLS では、コードのカスタマイズもサポートされており、異なるインターフェイス規格をインプリメントしたり、デザイン目標を達成するために特定の最適化を適用したりできます。

Vitis HLS のデザイン フローは次のとおりです。

  1. C/C++ アルゴリズムをコンパイル、シミュレーション、およびデバッグします。
  2. レポートを確認し、デザインを解析および最適化します。
  3. C アルゴリズムを RTL デザインに合成します。
  4. RTL 協調シミュレーションを使用して RTL インプリメンテーションを検証します。
  5. RTL インプリメンテーションをオブジェクト ファイル (.xo) にコンパイル、または RTL IP にパッケージします。

基本的な高位合成

ザイリンクス Vitis HLS は、プログラマブル ロジックでアクセラレーションするために、C または C++ 関数を RTL コードに合成するツールです。Vitis HLS は、Vitis コア開発キットとアプリケーション アクセラレーション デザイン フローに緊密に統合されています。

高位合成 (HLS) 設計手法を使用する利点は、次のとおりです。

  • C レベルでアルゴリズムを開発および検証し、ハードウェア インプリメンテーションの詳細から抽象化レベルで設計。
  • C シミュレーションを使用してデザインを検証し、通常の RTL デザインよりもすばやくイテレーション。
  • 最適化プラグマを使用して C 合成プロセスを制御し、高パフォーマンスのインプリメンテーションを作成。
  • C ソース コードおよびプラグマから複数のデザイン ソリューションを作成して、デザイン空間を試し、最適なソリューションを特定。
  • C ソースをすばやく再コンパイルし、さまざまなプラットフォームおよびハードウェア デバイスをターゲット。

HLS には、次の段階が含まれます。

  1. スケジューリング: 各クロック サイクルでどの演算を実行するかを次に基づいて決定します。
    • 演算の依存が満たされ、使用可能になるタイミング。
    • クロック サイクルの長さまたはクロック周波数。
    • 演算が終了するまでにかかる時間 (ターゲット デバイスで定義)。
    • 使用可能なリソースの割り当て。
    • ユーザー指定の最適化指示子の適用。
    ヒント: クロック周期が長ければ、1 つのクロック サイクルでより多くの演算を実行できます。高速なデバイスがターゲットの場合、すべての演算を 1 クロックで完了できることもあります。クロック周期が短い場合、または低速のデバイスがターゲットの場合は、HLS で演算が複数のクロック サイクルでスケジューリングされます。演算によっては、マルチサイクル リソースとしてインプリメントする必要のあるものもあります。
  2. バインディング: スケジューリングされた各演算をインプリメントするハードウェア リソースを割り当て、加算、乗算、シフトなどの演算子を特定の RTL インプリメンテーションにマップします。たとえば乗算 (mult) は、組み合わせまたはパイプライン RTL 乗算器としてインプリメントできます。
  3. 制御ロジックの抽出: 定義されたスケジュールに基づいて、RTL デザインで演算を順序付ける有限ステート マシン (FSM) を作成します。

スケジューリングおよびバインディングの例

次の図に、このコード例のスケジューリングおよびバインディングの例を示します。

int foo(char x, char a, char b, char c) {
 char y;
 y = x*a+b+c;
 return y;
}
1: スケジューリングおよびバインディングの例

この例のスケジューリング段階では、次の演算が各クロック サイクルで発生するようにスケジューリングされます。

  • 1 番目のクロック サイクル: 乗算と 1 回目の加算
  • 2 番目のクロック サイクル: 2 番目のクロック サイクルで最初の加算の結果が使用可能な場合は、2 回目の加算を実行して出力を生成
注記: 図の 1 番目と 2 番目のクロック サイクルの間にある正方形は、内部レジスタに変数が格納されることを示しています。この例では、高位合成で加算の出力が 1 クロック サイクルでレジスタに入力されることだけが必要です。1 番目のサイクルで xab データ ポートが読み出され、2 番目のサイクルで c データ ポートが読み出されて y 出力が生成されます。

最終的なハードウェア インプリメンテーションでは、最上位関数への引数が I/O (入力および出力) ポートとしてインプリメントされます。この例では、引数は単純なデータ ポートです。各入力変数は char 型なので、入力データ ポートはすべて 8 ビット幅です。関数 return は 32 ビットの int 型なので、出力データ ポートは 32 ビット幅です。

重要: ハードウェアに C コードをインプリメントする利点は、すべての演算をより少ないクロック数で完了できることです。この例の場合、演算は 2 クロック サイクルだけで完了します。CPU では、このような単純なコード例でも、完了するのにさらに多くのクロック サイクルが必要です。

この例の初期バインディング段階では、乗算が組み合わせ乗算器 (Mul) を使用してインプリメントされ、両方の加算が組み合わせ加減算器 (AddSub) を使用してインプリメントされています。

ターゲット バインディング段階では、乗算器と加算演算の 1 つが DSP モジュール リソースを使用してインプリメントされています。アプリケーションには多数のバイナリ乗算器およびアキュムレータを使用するものもありますが、これらは専用の DSP リソースにインプリメントするのが最適です。DSP モジュールは、FPGA アーキテクチャで使用可能な計算ブロックで、高パフォーマンスと効率的なインプリメンテーションの理想的なバランスを達成します。

制御ロジックの抽出と I/O ポートのインプリメント例

次の図に、ここに示すコード例の制御ロジックの抽出と I/O ポートのインプリメンテーションを示します。


void foo(int in[3], char a, char b, char c, int out[3]) {
  int x,y;
  for(int i = 0; i < 3; i++) {
    x = in[i]; 
    y = a*x + b + c; 
    out[i] = y;
  }
}
2: 制御ロジックの抽出と I/O ポートのインプリメンテーションの例

このコード例では前の例と同じ演算が実行されますが、演算が for ループ内で実行され、関数引数のうちの 2 つが配列である点が異なります。結果のデザインでは、コードがスケジューリングされたときに for ループ内のロジックが 3 回実行されます。高位合成では C コードから制御ロジックが自動的に抽出され、RTL デザインでこれらの演算を順序付ける有限ステート マシン (FSM) が作成されます。最終的な RTL デザインでは、最上位関数の引数がポートになります。char 型のスカラー変数は標準の 8 ビット データ バス ポートにマップされます。in および out などの配列引数には、データ コレクション全体が含まれます。

高位合成では、配列はデフォルトでブロック RAM に合成されますが、FIFO、分散 RAM、個別のレジスタなどに合成することも可能です。最上位関数で配列を引数として使用すると、ブロック RAM が最上位関数外にあると想定され、データ ポート、アドレス ポート、必要なチップ イネーブルまたはライト イネーブル信号など、デザイン外のブロック RAM にアクセスするためのポートが自動的に作成されます。

FSM では、データをいつレジスタに格納するかと、I/O 制御信号のステートが制御されます。FSM は C0 ステートで開始し、次のクロックで C1 ステートに遷移し、その後 C2 ステート、C3 ステートに遷移します。そして C1 (および C2C3) を 3 回反復してから、C0 ステートに戻ります。

注記: これは、C コードの for ループの制御構造と類似しています。ステートの完全なシーケンスでは、C0{C1, C2, C3}{C1, C2, C3}{C1, C2, C3} の後、C0 に戻ります。

bc の加算が必要なのは 1 回だけなので、この演算は for ループ外に出され、C0 ステートに挿入されます。この加算結果は、C3 ステートに遷移するたびに再利用されます。

デザインでは in のデータが読み出され、x に格納されます。FSM の C1 で最初の要素のアドレスが生成されます。また、C1 ステートでは、C1C2C3 ステートを何回反復する必要があるのかを知るために、加算器がインクリメントされます。C2 ステートでは、ブロック RAM から in のデータが返され、変数 x として格納されます。

計算に必要なその他の値が a ポートから読み出され、最初の y 出力が生成されます。FSM で正しいアドレスと制御信号が生成され、この値がブロック外に格納されます。この後デザインは C1 ステートに戻り、配列/ブロック RAM の in から次の値が読み出されます。このプロセスは、すべての出力が書き込まれるまで継続されます。そして C0 ステートに戻り、bc の次の値が読み出されて、プロセスが再度実行されます。

パフォーマンス メトリクスの例

次の図に、前の例のコードの実行 (各クロック サイクルのステート、読み出し、計算、書き込みなど) をサイクルごとに示します。

3: レイテンシと開始間隔の例

この例のパフォーマンス メトリクスは次のとおりです。

  • レイテンシ: すべての値を出力するのに 9 クロック サイクルかかります。
    注記: 出力が配列の場合、レイテンシは配列の最後の出力値までで計測されます。
  • 開始間隔 (II): II は 10 なので、関数が新しい入力データのセットの読み出しを開始してから次のセットのプロセスを開始するまでに 10 クロック サイクルかかります。
    注記: 1 つの関数の実行を完了するのにかかる時間は、1 トランザクションと呼ばれます。この例では、関数が次のトランザクション用のデータを受信できるまでに 11 クロック サイクルかかります。
  • ループの反復レイテンシ: 各ループ反復のレイテンシは 3 クロック サイクルです。
  • ループ II: 開始間隔は 3 です。
  • ループ レイテンシ: レイテンシは 9 クロック サイクルです。

チュートリアルおよびサンプル

Vitis HLS の使用方法を短時間で習得するためのチュートリアルおよびサンプル アプリケーションが次の場所から提供されています。

Vitis HLS チュートリアル (https://github.com/Xilinx/HLS-Tiny-Tutorials/tree/master)
適切な設計プラクティス、コーディング ガイドライン、一般的なアプリケーションのデザイン パターンなどのコード例が多数含まれ、アプリケーションのパフォーマンスを最大限にするために重要な最適化手法が示されています。すべての例には、コード例を使用するための README.md ファイルおよび run_hls.tcl スクリプトが含まれています。
Vitis アクセラレーション例リポジトリ (https://github.com/Xilinx/Vitis_Accel_Examples)
Vitis ツールおよびプラットフォームのさまざまな機能を紹介する例が含まれます。Vitis アプリケーション アクセラレーション開発フロー用のホスト コードおよびカーネル プログラムに関する特定の状況が機能する小型の例で示されます。これらの例のカーネル コードは、Vitis HLS で直接コンパイルできます。
Vitis アプリケーション アクセラレーション開発フロー チュートリアル (https://github.com/Xilinx/Vitis-Tutorials)
Vitis HLS をスタンドアロン アプリケーションとして使用する方法や Vitis ボトムアップ デザイン フローで使用する方法を含め、ツール フローおよびアプリケーション開発に関する特定の概念を理解するためのチュートリアルが多数含まれます。