UPGRADE YOUR BROWSER

We have detected your current browser version is not the latest one. Xilinx.com uses the latest web technologies to bring you the best online experience possible. Please upgrade to a Xilinx.com supported browser:Chrome, Firefox, Internet Explorer 11, Safari. Thank you!

このページをブックマークに追加

柔軟な DSP ソリューション

大規模並列計算

柔軟性に優れたザイリンクスの FPGA および All Programmable SoC は、ハードウェアの並列性を利用する高性能/マルチチャネル デジタル信号処理 (DSP) アプリケーションに最適です。ザイリンクスの FPGA および SoC では、このプロセッシング帯域幅を実現できると同時に、ハードウェア設計者、ソフトウェア開発者、システム設計者が使いやすい設計ツールなどを含む包括的なソリューションを利用できます。

ハードウェアの並列性

一般的なノイマン型 DSP アーキテクチャは、256 タップ FIR フィルターを実行するのに 256 サイクルが必要ですが、ザイリンクス FPGA では 1 クロック サイクルで同じ結果を達成できます。

大規模な並列性を示す図は、例外的なレベルの DSP 性能を示しています。

この大規模な並列性により、非常に高いレベルの DSP 性能が実現します。

  • 22 TeraMAC (固定小数点)
  • 7.3 TeraFLOP (単精度浮動小数点)
  • 11 TeraFLOP (半精度浮動小数点)

包括的な DSP ソリューション

ザイリンクスの DSP ソリューションには、ワイヤレス通信、データ通信、データ センター、航空宇宙/防衛など広範な市場のさまざまなアプリケーションをサポートするシリコン、IP、リファレンス デザイン、開発ボード、ツール、資料、トレーニングが含まれます。

包括的な開発フロー

異なる使用モデル、異なるデザインの抽象化レベルに対応するさまざまなツール フロー:

ハードウェア設計者は次の環境での設計が可能:

C/C++ を使用する開発環境に慣れているソフトウェア開発者は次の環境での設計が可能:

システム設計者は次の環境で新しいアルゴリズムの迅速な評価が可能:

ザイリンクスの FPGA および SoC を利用する場合、DSP アプリケーションをデプロイするには設計アプローチやデザインの抽象化レベルに依存するさまざまなフローがあります。

ASIC クラスのアーキテクチャをベースとするザイリンクス FPGA 「Virtex® UltraScale+™」ファミリは、20 TeraMAC 以上の DSP 性能で数百 Gbps の I/O 帯域幅を提供します。最新世代ザイリンクス FPGA で実現できる DSP 性能の鍵となるのは、ザイリンクスの DSP スライスとその並列性です。

DSP スライスのアーキテクチャ

UltraScale™ DSP48E2 スライスは、ザイリンクス アーキテクチャで 5 世代目の DSP スライスです。

業界一の消費電力と性能を実現するために、この専用 DSP プロセッシング ブロックがフルカスタムのシリコンにインプリメントされるため、乗算累算 (MACC)、乗算加算 (MADD)、または複素乗算などの一般的な DSP 機能を効率的に実装できます。

また、このスライスは、AND、OR、XOR などさまざまなロジック動作を実行する機能も提供します (UG579)。

UltraScale アーキテクチャは、実績ある 7 シリーズをベースとして構築され、機能が強化されたものです。

  • よりビット幅の広い乗算器 (27 x 18 ビット)
  • Squaring MUX を介して前置加算器の出力を 2 乗できる
  • 新しいワイド MUX により、乗算器の後に真の 3 入力加算器が可能
拡張機能が DSP クリティカル アプリケーションが FPGA ファブリックに入る前に DSP48E2 スライス内でより多くの計算を実行する方法を示す図。

これらの機能強化によって、DSP の性能を重視するアプリケーションでは FPGA ファブリックの消費を抑えてDSP48E2 スライス内で多くの演算を実行できるため、結果的にリソースや消費電力を削減できます。

DSP48E1 (7 シリーズ) スライスと DSP48E2 (UltraScale) スライスの機能比較

機能 7 シリーズ UltraScale
DSP タイル/スライスの種類 DSP48E1 DSP48E2
複数の加算/減算/累算動作
乗算/MACC 25 x 18 27x18
2 乗:  [(A or B) +/- D]2  
WMUX フィードバックを使用する超高効率な複素乗算 CMACC 5 x DSP48E1 3 x DSP48E2
SIMD サポート
インテグレイテッド パターン検出回路
インテグレイテッド ロジック ユニット
ワイド MUX 機能 (48 ビット)
ワイド XOR (96 ビット)  
オプションの 96 ビット出力
カスケード配線
パイプライン レジスタ
D 前置加算器
シーケンシャル複素乗算、AB ダイナミック アクセス
AB レジスタのパイプライン バランシング向上

ツールとフロー

ザイリンクスは、ユーザーの好みに合わせて RTL、C/C++、およびモデルベースのデザイン入力に対応するさまざまなツールを提供しています。この柔軟な設計フローで広範な DSP IP カタログを活用することで、ザイリンクスのツールやデバイスの適用がよりスムーズになります。

システム レベル デザインの統合設計環境として Vivado IDE を利用することで、完全なデザインを構築して実装し、デバイスをプログラムするためにそれらのビットファイルを生成できます。

FPGA をプログラムするための RTL、C / C ++、およびモデルベースのデザイン エントリをどのようにザイリンクス ツールがサポートしているのかを示す図

詳細は、ツール、ライブラリ、フレームワークを参照してください。

DSP 性能の測定基準

次の表に 7 シリーズ、UltraScale、および UltraScale+ ファミリの主な DSP 性能の測定基準を示します。SoC デバイスの性能は、ソフトウェア開発者のセクションを参照してください。

  Artix-7 Kintex-7 Kintex UltraScale Kintex UltraScale+ Virtex-7 Virtex UltraScale Virtex UltraScale+
ロジック セル (K) / システム ロジック要素 (K) (1) 13–215 65–478 318–1,451 356–1,143 326–1,424 783–5,541 862–3,780
DSP スライス 40–740 240–1920 768–5,520 1,368–3,528 1,120–3,600 600–2,880 2,280–12,288
18x18 乗算器 40–740 240–1920 768–5,520 1,368–3,528 1,120–3,600 600–2,880 2,280–12,288
浮動小数点の性能 (GMACs) 25–464 178–1,424 507–4,090 1,218–3,143 831–2,671 444–2,134 2,031–10,948
対称フィルターの固定小数点の性能 (GMACs) (2) 50–928 356–2,848 1,014–8,180 2,436–6,286 1,662–5,342 888–4,268 4,062–21,896
INT8 GOPs (3) 50–928 356–2,848 1,774–14,315 4,263–11,000 1,662–5,342 1,554–7,469 7,108–38,318
INT16 GOPs 50–928 356–2,848 1,014–8,180 2,436–6,286 1,662–5,342 888–4,268 4,062–21,896
単精度浮動小数点 (GFLOPs) (4) 10–196 96–770 320–2,685 800–1,673 449–1,444 294–1,411 1,354–7,299
単精度浮動小数点 (GFLOPs) (5) 7–147 72–577 240–2,028 609–1,571 337–1,083 220–1,058 1,015–5,474
半精度浮動小数点 (GFLOPs) (6) 15–295 144–1,154 480–4,056 1,218–3,142 674–2,166 440–2,116 2,030–10,948

注記:

  1. 7 シリーズでのみ使用されるロジック セル
  2. 前置加算器を使用した場合、対称フィルターの DSP 性能が 2 倍向上
  3. WP486 - 『ザイリンクス デバイスでの INT8 に最適化した深層学習の実装』を参照
  4. DSP スライスを 3 つ使用する Floating Point Operator コアを使用した場合の単精度浮動小数点の性能
  5. DSP スライスを 4 つ使用する Floating Point Operator コアを使用した場合の単精度浮動小数点の性能
  6. }DSP スライスを 2 つ使用する Floating Point Operator コアを使用した場合の半精度浮動小数点の性能

 

役に立つ設計手法および情報

ザイリンクス FPGA 内の DSP48 スライスを最適かつ効率的に使用するためには、次の資料を参考にして、適切な場所に設計手法を採用する必要があります。

  • 累積的リソースとして DSP スライスのユーザー ガイドを利用する (AR68594)
  • ザイリンクスの LogiCORE DSP48 Macro コアは DSP48 スライスを構成するための簡単なインターフェイスを提供する
  • DSP スライスに時分割多重化を使用するとスループットと効率が増加する (AR68595)
  • 浮動小数点の場合、ザイリンクスはデータ タイプの変換機能 (浮動小数点から固定小数点など) を含む Floating-Point Operator IP コアを提供

ザイリンクスは、ソフトウェア開発環境と使い慣れた優れたツール、ライブラリ、設計手法を含む包括的なソリューションを提供しているため、ソフトウェア開発者はザイリンクス FPGA および SOC をターゲットとする開発を簡単に始めることができます。Vivado 高位合成 (HLS)SDAccel、および SDSoC などの抽象レベルの高い開発環境を提供するザイリンクスは、C、C++、OpenCL に対応する GPU と同様の使い慣れたエンベデッド アプリケーション開発とランタイムを提供できます。

ザイリンクスの All Programmable SoC および MPSoC

Zynq UltraScale+ MPSoC および Zynq-7000 ファミリは、単一デバイスに ARM® Cortex® プロセッサとユーザー プログラマブル ロジック (PL) を統合したパワフルなプロセッシング システムを提供します。

アクセラレーションのアプリケーション プロファイリング

SDSoC では、指定したアプリケーションのプロファイリングが可能なため、プログラマブル ロジック (PL) でより効率な動作させるためのハードウェア アクセラレーターを作成できます。FPGA の柔軟性と並列性によって大幅な性能向上を期待できます。また、必要に応じて、プロセッシング システム (PS) でアプリケーションのほかの機能を同時に実行することもできます。

ザイリンクスの FPGA や All Programmable SoC をターゲットにすることによって、多くの DSP およびエンベデッド アプリケーションで、アプリケーションの効率が向上し、消費電力が削減されます。

ザイリンクス All Programmable SoC デバイスの機能および DSP 性能

次の表に、ザイリンクスの Zynq-7000 SoC および Zynq UltraScale+ MPSoC ファミリの主な機能と DSP 性能の測定基準を示します。SoC 以外のデバイスの性能は、ハードウェア設計者のセクションを参照してください。

プロセッシング システム Zynq-7000 SoC Zynq UltraScale+ MPSoC
アプリケーション
プロセッシング ユニット
(APU)
  • 最大 1GHz のシングル/デュアルコア ARM Cortex-A9 MPCore™
  • ARMv7-A アーキテクチャ
  • NEON™ メディア プロセッシング エンジン
  • 単精度/倍精度ベクター浮動小数点ユニット (VFPU)
  • 最大 1.5GHz のデュアル/クワッドコア ARM Cortex-A53 MPCore
  • ARMv8-A アーキテクチャ
  • Neon アドバンスド SIMD メディア プロセッシング エンジン
  • 単精度/倍精度浮動小数点ユニット (FPU)
リアルタイム
プロセッシング ユニット
(RPU)
-
  • 最大 600MHz のデュアルコア ARM Cortex-R5 MPCore
  • ARMv7-R アーキテクチャ
  • 単精度/倍精度浮動小数点ユニット (FPU)
マルチメディア処理 -
  • GPU ARM Mali™-400 MP2 (最大 667MHz)
    • OpenGL ES 1.1 および 2.0 に対応
    • OpenVG 1.1 に対応
  • H.264-H.265 対応のビデオ コーデック (EV デバイスのみ)
ダイナミック メモリ インターフェイス DDR3、DDR3L、DDR2、LPDDR2 DDR4、LPDDR4、DDR3、DDR3L、LPDDR3
高速ペリフェラル USB 2.0、Gigabit Ethernet、SD/SDIO PCIe® Gen2、USB3.0、SATA 3.1、DisplayPort、Gigabit Ethernet、SD/SDIO
セキュリティ RSA、AES、SHA、ARM TrustZone® RSA、AES、SHA、ARM TrustZone
最大 I/O ピン数 128 214
プログラマブル ロジック Zynq-7000 SoC Zynq UltraScale+ MPSoC
システム ロジック要素 (K) 23–444 103–1,045
最大メモリ (Mb) 1.8–26.5 5.3–70.6
最大 I/O ピン数 100–362 252–668
DSP スライス 60–2,020 240–3,528
18x18 乗算器 60–2,020 240–3,528
固定小数点の性能 (GMACs) (1) 42–1,313 213–3,143
対称フィルターの固定小数点の性能 (GMACs) (1) (2) 84–2,626 426–6,286
INT8 GOPs (1) (3) 84–2,626 745–11,000
INT16 GOPs (1) 84–2,626 426–6,286
単精度浮動小数点 (GFLOPs) (1) (4) 23–716 142–1,673
単精度浮動小数点 (GFLOPs) (1) (5) 17–537 106–1,571
半精度浮動小数点 (GFLOPs) (1) (6) 34–1,074 212–3,142

注記:

  1. すべての性能計算は、Zynq-7000 SoC で -2 スピード グレード、Zynq UltraScale+ MPSoC で -3 スピード グレード
  2. 前置加算器を使用した場合、対称フィルターの DSP 性能が 2 倍向上
  3. WP486 - 『ザイリンクス デバイスでの INT8 に最適化した深層学習の実装』を参照 (Zynq デバイスは適用外)
  4. DSP スライスを 3 つ使用する Floating Point Operator コアを使用した場合の単精度浮動小数点の性能
  5. DSP スライスを 4 つ使用する Floating Point Operator コアを使用した場合の単精度浮動小数点の性能
  6.  DSP スライスを 2 つ使用する Floating Point Operator コアを使用した場合の半精度浮動小数点の性能

ザイリンクス SoC および MPSoC の詳細は次のリンクを参照:

プロセッシング サブシステムの DSP

プロセッシング システム (PS) は異なる ARM プロセッシング コアを使用して DSP 処理機能を提供します。

ARM プロセッサの DSP 機能の詳細は次のリンクを参照:

次のリンクから、役に立つ例を参照できます。

Zynq UltraScale+ MPSoC で、ARM NEON 命令セットを使用する FFT について説明しています。UG1211

Zynq-7000 SoC で、Cortex-A9 および ARM SIMD をターゲットとする場合、Xilinx Wiki で次のテクニカル ヒントを提供しています。

ザイリンクスのデータ タイプ サポート

ザイリンクスの All Programmable デバイスでは非常に柔軟にデータ タイプがサポートされています。ザイリンクス ツールでは、固定小数点、浮動小数点、および整数のさまざまな精度がネイティブ サポートされており、浮動小数点演算子は、Floating Point Operator IP コアを使用して実装されます。

FPGA に実装される浮動小数点デザインは、固定小数点や整数の実装と比べて、リソースの使用量と消費電力が高くなります。可能であれば固定小数点ソリューションに変換することで、次のような大きなメリットが得られます。

  • FPGA リソースが削減
  • 消費電力が削減
  • コスト削減

浮動小数点から固定小数点へデータ タイプを変換するメリットの詳細は、WP491 を参照してください。

ベンチマーク

以下の表は、ザイリンクスの All Programmable デバイス、つまりプログラマブル ロジック (PL) のファブリックを使用してデザインを加速する場合の少ないアルゴリズムの選択肢とパフォーマンスの向上を示しています。

アルゴリズム CPU/GPU Zynq UltraScale+ MPSoC アドバンテージ
Stereo LocalBM @ 2K ARM: 0.5 FPS/Watt
nVidia: 3.5 FPS/Watt
146 FPS/Watt 292x
42x
オプティカル フロー
(Lucas-Kanade)
ARM: 0.1 FPS/Watt
nVidia: 0.8 FPS/Watt
7.1 FPS/Watt 9.3x
GoogleNet
(Batch=1)
ARM: 0.1 Imgs/s/w
nVidia: 8.8 Imgs/s/w
53 Imgs/s/w 530x
6x

注記 1: ARM: Quad-core A53 は 1200MHz のRaspberry Pi で動作
注記 2: Nvidia ベンチマークは、Tegra X1 を使用して実行
注記 3: オプティカル フロー (LK) – ウィンドウ サイズ 11x1

アルゴリズム CPU/DSP Zynq-7000 アドバンテージ
フォワードプロジェクション (順投影) ARM: 3 sec/view 0.016 sec/view 188x
動き検出 ARM: 0.7 FPS 67 FPS 90x
ノイズ除去 (ソーベル) ARM: 1 FPS 67 FPS 60x
キャニー エッジ検出 ARM: 0.66 FPS 40 FPS 45x
3D 画像再構成 ARM: 75k 8k 9x
DPD ARM: 506 ms 31.3ms 16x
FIR TI DSP: 64020 ns 1200ns 53x
FFT TI DSP: 1036 ns 128ns 8x

注記 1: Cortex-A9 コアは、ARM をターゲットとする Zynq デバイスでのみ使用される
注記 2: TI ベンチマークは、C66 DSP コアを使用して実行

Vivado の System Generator for DSP や Vivado の高位合成などのザイリンクスの高度な設計ツールは、システム設計者や各分野の専門家が新しいアルゴリズムを迅速に評価してデザインの差別化に集中できる、抽象レベルの高い環境を提供します。包括的なザイリンクス DSP ソリューションは、これらのデザインツール、IP、リファレンスデザイン、メソドロジ、およびボードを組み合わせることで、できるだけ短期間にプロダクション デザインを完成させることができます。

Vivado System Generator for DSP

Vivado System Generator for DSP は、従来の RTL 開発にかかる数分の一の時間でプログラマブル ロジックの量産品質 DSP アルゴリズムを定義、テスト、および実装するために、MATLAB や Simulink 環境を利用するモデル ベースの設計ツールです。

ダイアグラムは、Vivado System Generator for DSP がモデルベースの設計ツール ワークフローであることを示しています。

ツールが提供するもの:

  • 最適化された 100 以上の DSP ブロック (RTL よりシミュレーションが 2 ~ 3 倍高速化する C シミュレーション モデルがある)
  • DSP システムの RTL、IP、Simulink、MATLAB、C/C++ コンポーネントが統合
  • ビットおよびサイクル アキュレートな浮動小数点/固定小数点シミュレーション
  • シミュレーションを高速化し、実際のハードウェア上でアルゴリズムを評価するためのハードウェア協調シミュレーション
  • Simulink モデルからパッケージ化された IP や低レベル HDL の自動コード生成
  • HDL テストベンチの自動生成 (テスト ベクタを含む)

Vivado System Generator for DSP の詳細は、次のリンクを参照:

Vivado 高位合成

すべての Vivado HLx Edition で無償アップグレードに含まれている Vivado 高位合成により、移植可能な C、C ++、および System C アルゴリズムの仕様を RTL を作成することなくザイリンクス デバイスを直接ターゲットにできます。C/C++ から異なるプロセッサ アーキテクチャへのコンパイラと同様に、HLS コンパイラは C/C++ からザイリンクス FPGA へ同等の機能を提供します。

Vivado HLS の詳細は、次のリンクを参照:

ツール

ザイリンクスは、ザイリンクスの FPGA または All Programmable SoC 上でデジタル信号処理 (DSP) アプリケーションを効率的かつ低消費電力で実装するためのクラス最高のツールを提供しています。以下のザイリンクス ツールは、RTL、C/C++/SystemC、または Matlab/Simulink のいかなる言語を使用する場合でも、DSP 設計を容易にし、市場投入までの時間を短縮します

ライブラリとフレームワーク

ザイリンクスは、性能、リソースの利用率、使いやすさを考慮して最適化された豊富なライブラリを提供しています。

エンベデッド ビジョン ソリューション

  • OpenCV ライブラリ
  • Caffe 対応の深層学習推論フレームワーク
  • サンプル デザイン (オプティカル フロー、ステレオ ビジョン、CNN ベース シーン セグメンテーションなど)

詳細は、reVISION ゾーンをご覧ください。

再構成可能なアクセラレーション スタック

ザイリンクスの再構成可能なアクセラレーション スタックは、世界最大のクラウド サービス プロバイダーがクラウドスケールでアクセラレーション プラットフォームを開発および展開できるようにし、機械学習、データ解析、ビデオ トランスコードなどの複雑なクラウド コンピューティング アプリケーションに究極の柔軟性を与えます。

詳細は、アクセラレーション ゾーンをご覧ください。

GitHub レポジトリ

ザイリンクスは GitHub レポジトリを作成し、DSP 関連機能を含むさまざまなアプリケーションに役立つサンプル コードを提供しています。

ザイリンクスとパートナー企業は、さまざまな市場分野の DSP アプリケーションでザイリンクスの FPGA/SoC を簡単に適用できるようにするためにツールやボードを提供しています。

パートナー

Avnet 社の DSP 中心の開発キットとモジュール

ザイリンクス、MathWorks 社、および高速アナログ サプライヤとの長年にわたる協力により、Avnet 社は DSP 中心の開発キットとエンベデッド ビジョン、ソフトウェア無線および高性能モータ制御向けのプロダクション対応システムオンモジュール (SOM) を提供しています。Avnet 社は、複数のデザイン センターに所属する 150 名以上のフィールド アプリケーション エンジニアと DSP スペシャリストで構成されるグローバル チームにより、デザインのコンセプトから製造まで DSP 設計をサポートします。

Avnet 社の DSP ソリューション

Mathworks 社のコンピューティング ソフトウェア

Mathworks 社の MATLAB®/Simulink® は FPGA や SoC ベースのシステム開発時間を大幅に短縮できます。ユーザーは次のことが可能になります。

  • カスタムおよび事前定義された関数やブロックセットをデザインに統合することで、複雑な信号や画像処理、通信、制御アルゴリズムを作成できる
  • モデル ベースの設計とシステム レベルのシミュレーションによって、開発初期段階にシステム要件を検証できる
  • ザイリンクスの All-Programmable FPGA/SoC プラットフォームをターゲットとする HDL および C コードを生成/検証できるため、プロトタイプ製品を素早く完成できる
  • デザインに System Generator for DSP ブロックを統合して、FPGA の性能を制御および最適化できる

詳細

Analog Devices 社のアドオン ボード

ザイリンクスの FPGA に接続された AD-FMCDAQ2-EBZ FMC の広帯域データ変換、クロッキング、電力の組み合わせは、DSP デザイン向けの実世界のハードェアとソフトウェアに近接します。このボードは、操作が簡単な自己完結型のデータ アクイジションおよび信号合成プロトタイピング プラットフォームであり、エンド システムの信号処理開発を迅速に行うことができます。

  • FMC サイズ: 84 mm × 69 mm
  • AD9680 (14 ビット、1.0 GSPS、JESD204B ADC)
  • AD9144 (クワッド、16 ビット、2.8 GSPS、JESD204B DAC)
  • AD9523-1 は 14 出力の 1GHz クロックで駆動
  • 電力管理コンポーネント

詳細

ザイリンクスのボードとキット

構想段階であっても、プロダクション ボードやモジュールで製品の市場化を加速させたい場合であっても、ザイリンクスの All Programmable FPGA/SoC ボード、キット、モジュールの包括的なハードウェア プラットフォームをザイリンクス エコシステム パートナーと共に提供しています。

8 レーンのJESD204B インターフェイス対応Kintex UltraScale DSP キット (日本語字幕)

このビデオでは、ザイリンクスの Kintex UltraScale KCU105 開発ボードに Analog Devices 社製 AD-FMCDAQ2-EBZ 高速アナログ FMC モジュールを接続した KU40 デバイス搭載のザイリンクス Kintex® UltraScale FPGA Analog Devices JESD204B DSP キットについて説明しています。

05:18

ザイリンクスはパートナーと緊密に連携し、豊富な FPGA メザニン カードも提供しています。