論 又——

メディア処理向け再構成可能アーキテクチャでの動画像復号処理の 実現

密山幸男 $^{\dagger a}$ 高橋一頁 $^{\dagger}$ 今井林太郎 $^{\dagger}$ 橋本昌 $\mathbf{1}^{\dagger}$ 尾上孝 $\mathbf{d}^{\dagger}$ 白川 $\mathbf{J}^{\dagger\dagger}$ 

Application Design of Multi-Standard Decoder on Media-Centric Reconfigurable Architecture

Yukio MITSUYAMA<sup>†a)</sup>, Kazuma TAKAHASHI<sup>†</sup>, Rintaro IMAI<sup>†</sup>, Masanori HASHIMOTO<sup>†</sup>, Takao ONOYE<sup>†</sup>, and Isao SHIRAKAWA<sup>††</sup>

あらまし 面積効率の向上を目指したヘテロジニアス構造を有する粗粒度再構成可能アーキテクチャは、アプ リケーション分野を特化することで高性能化と小面積化を実現することができる.そこで我々は、対象アプリケー ションをメディア処理に特化したヘテロジニアス粗粒度再構成可能アーキテクチャARAMを開発してきた.本論 文では、ARAMによって複数の動画像復号処理を実現できることを示すため、MPEG-2 デコーダ、MPEG-4 デ コーダ、H.263 デコーダを設計対象として、各処理過程のマッピングについて述べる.更に、動画像復号処理の 高性能化要求に対して、ARAMのスケーラビリティと動画像復号処理の画素並列性を用いた性能拡張について 述べる.またフィルタバンクのマッピングについて述べ、動画像復号処理以外にも適用できる機能拡張性を示す. キーワード 再構成可能アーキテクチャ、マッピング、動画像復号処理、画素並列処理

# 1. まえがき

汎用性を目指して高い柔軟性をもつ FPGA (Field Programmable Gate Array) に対して,回路の柔軟性 を一部犠牲にして,より高い性能と小面積化を実現す る粗粒度再構成可能アーキテクチャが数多く提案され ている[1].同種の機能セルを規則的に配置したホモジ ニアス構成を採用する再構成可能アーキテクチャは, アプリケーション分野を問わない汎用性をもちながら, 並列性の高いデータパスの実現に適しているが,その 汎用性に起因するハードウェアコストが課題となって いる.これに対し,対象とするアプリケーション分野 を限定し,面積効率の向上を図ったヘテロジニアス構 成をもつ粗粒度再構成可能アーキテクチャが注目され

<sup>†</sup>大阪大学大学院情報科学研究科, 吹田市 Graduate School of Information Science and Technology, Osaka University, Suita-shi, 565–0871 Japan

<sup>††</sup> 兵庫県立大学大学院応用情報科学研究科,神戸市 Graduate School of Applied Informatics, University of Hyogo, Kobe-shi, 650–0040 Japan

a) E-mail: mituyama@ist.osaka-u.ac.jp

ている.

これまで我々はアプリケーション分野をメディア処 理に特化することで,動画像復号処理を高い面積効 率で実現するヘテロジニアス粗粒度再構成可能アー キテクチャ(ARAM: Area-conscious Reconfigurable Architecture for Media processing)を開発した[2]. ARAM を構成する再構成可能セルアレーは,機能セ ルの比率と配置を動画像復号処理の実装に適したヘテ ロジニアス構造とし,演算器や配線資源を限定するこ とでハードウェアコストの大幅な削減を実現している.

本論文では、[2] で開発した ARAM が複数の動 画像復号処理を選択的に実現できることを示すた め、MPEG-2 デコーダ、MPEG-4 デコーダ、H.263 デ コーダを設計対象として、Variable Length Decoder (VLD), Inverse Quantizer (IQ), Inverse Discrete Cosine Transformer (IDCT), Motion Compensator (MC)のマッピングについて述べる.面積効率を優先 するため、再構成可能セルアレー上への制御データ フローグラフのマッピングを体系的に定義した"マク ロセル"を用い、すべてのマッピングは手作業で行っ た.また,再構成可能セルアレーのスケーラビリティ と,動画像復号処理の画素並列性を利用した性能拡張 について述べる.更に,オーディオ処理でも用いられ るフィルタバンクのマッピングについて述べ,ARAM が動画像復号処理以外にも適用できることを示す.

# メディア処理向け再構成可能アーキテク チャ

- 2.1 アーキテクチャの概要
- 2.1.1 全体構成

ARAM [2] の全体構成を図1に示す.再構成可能セ ルアレーはプロセッサとの協調動作によりアプリケー ションを実現する.再構成可能セルアレーの構成情報 はオンチップの構成情報メモリに格納し,その他の処 理データは外部メモリに格納する.

2.1.2 機能セル

再構成可能セルアレーは,表1に示す4種類のセル で構成され,各セルは図1(c)に示すように機能部と 配線部で構成される.

配線部の構造は各種セルで共通となっている.図2 に示すように,セルの上下左右に各2本,計8本の配 線を有し,配線間スイッチにより配線接続と信号の方 向を指定できる.配線部は以下の特長をもつ.

隣接セル間はスイッチを介さず直接接続されるが、スイッチを経由したセルの貫通接続によって離れたセル間でも通信できる.

8ビット幅のデータ線の他に、キャリーやイネーブルのための1ビット幅のフラグ線を有する.
 メモリセルは他のセルの4倍のサイズになるため、四つの配線部を接続した構成になる.メモリセルの配線部は付録1.1に示す.



Fig. 1 Overall architecture.

機能部の構造は4種類のセルで大きく異なる.各種セルの機能と入出力ポートを表1に示す.入出力 ポートは、メモリセルを除いて、図2に示すワード 線(A0-A3, B0-B3)から選択することができる.こ こで、一例として基本セルの機能部の詳細を図3に示 し、乗算セル、レジスタセル、メモリセルの機能部の 詳細は付録1.2で述べる.基本セルの機能部は、入 出力レジスタ、ALU、シフタで構成され、表2に示す 構成情報によって入出力レジスタ、ALU、シフタ、フ ラグ入出力、ワード入出力の機能を設定することがで きる.

表 1 4 種類のセル Table 1 Four types of reconfigurable cells.

| 種類     | 機能              | 入出力                                         |
|--------|-----------------|---------------------------------------------|
| 基本セル   | 加減算,シフト,        | 2 	imes 8-bit 入力 , 8-bit 出力                 |
|        | MUX, AND, OR    |                                             |
| 乗算セル   | 乗算              | $2 \times 8$ -bit 入力 , $2 \times 8$ -bit 出力 |
| レジスタセル | 2-port 16-word  | (read) 4-bit RA, 8-bit RD                   |
|        | レジスタ            | (write) 4-bit WA, 8-bit WD                  |
| メモリセル  | 1-port 256-word | (read) 8-bit RA, 8-bit RD                   |
|        | レジスタ            | (write) 8-bit WA, 8-bit WD                  |

RA: read address, RD: read data

WA: write address, WD: write data



図 2 機能セルの配線部

Fig. 2 Interconnect part of reconfigurable cell.



図 3 基本セルの機能部の構成

Fig. 3 Organization of function part of basic cell.

| ビット数 | ユニット  | 構成                                                 |
|------|-------|----------------------------------------------------|
| 6    | 入出力レジ | パイプライン,ライトイネーブル,定数                                 |
|      | スタ    | 未使用(バイパス)                                          |
| 4    | ALU   | キャリー (f <sub>i</sub> or c <sub>i</sub> ) 付き加算 , 減算 |
|      |       | 論理演算 (AND, OR, or MUX),                            |
|      |       | シフトタイプ(拡張または協調)                                    |
| 3    | シフタ   | シフト幅 (-4 ~ +3 bit)                                 |
| 4    | フラグ出力 | 出力選択 $(f_{o0} \sim f_{o3})$                        |
| 4    | フラグ入力 | 入力選択 (f <sub>i</sub> , e <sub>i</sub> )            |
| 4    | ワード入力 | ポート A, B への入力選択                                    |
| 4    | ワード出力 | 出力線の選択または Hi-Z 出力                                  |

表 2 基本セルの構成情報

Table 2 Configuration data for basic cell.



図 4 4 種類の機能セルによるヘテロジニアス構成 Fig. 4 Heterogeneous structure of 4 types of cells.

2.1.3 ヘテロジニアス構造

ARAM の再構成可能セルアレーは,対象とするメ ディア処理を高いセル利用効率で実現するため,以下 の条件を満たすヘテロジニアス構造を有する.再構成 可能セルアレーのアレー構造と,構成する各種セルの 個数を図4に示す.

隣接する基本セルと乗算セルで16ビット乗算
 器を実現できる.

• 規則的配置に基づくスケーラビリティを有する アレー構造とする.

 動画像復号処理を実現する場合,隣接する複数のメモリセルで1マクロブロック分のデコード中間 データを格納できる.

• 制御回路や遅延調整回路を実現するレジスタセ ルをほぼ一様に分散配置する.

2.1.4 インタフェース

ARAM の再構成可能セルアレーは四つのインタ フェースをもつ[2].以下ではそれぞれについて概説 する.

ホストプロセッサインタフェース: 32 ビット幅の データバスと,1 ビットの制御信号線で構成される. データバスの各8 ビットに対して,再構成可能セルア レー(図1)の左側にある基本セルのワード線(A2, B2)から接続する.同様に,制御信号線に対してはフ

|         | 表 3           | 構 成  | 情 報       |          |           |
|---------|---------------|------|-----------|----------|-----------|
| Table 3 | Configuration | data | size of 4 | types of | of cells. |

|        | 構   | <b>構成情報</b> (bit) |         |     |
|--------|-----|-------------------|---------|-----|
| 種類     | 機能部 | 配線部               | レジスタ    | 個数  |
| 基本セル   | 29  | 12                | 16      | 112 |
| 乗算セル   | 25  | 12                | 16      | 16  |
| レジスタセル | 28  | 12                | 128     | 48  |
| メモリセル  | 43  | 48                | (2,048) | 16  |

ラグ線 (f<sub>i2</sub>, f<sub>o2</sub>) から接続する.

外部メモリインタフェース: 32 ビット幅のデータ バス,24 ビット幅のアドレスバス,1 ビット幅のイ ネーブル制御信号線で構成される.データバスとアド レスバスの各 8 ビットに対して,アレー上側と下側に ある全セルのワード線 (A1,B1 またはA3,B3)から 接続する.同様に,イネーブル制御信号線には,フラ グ線 ( $f_{i1}, f_{o1}$  または  $f_{i3}, f_{o3}$ )から接続する.

データメモリインタフェース: コンテクスト切換 時にレジスタ初期値をアレーの行または列単位で書き 込むため,96 ビット幅の三つのデータバスで構成され る.他と同様に,アレーの上側のワード線(A1,B1), 右側と左側の基本セルのワード線(A0,B0またはA2, B2)から接続する.

構成情報メモリインタフェース: コンテクスト切 換時に構成情報メモリから構成情報を書き込むため, 492 ビット幅のバスで構成される.アレー上下方向に 12 本ある 41 ビット幅のコンフィギュレーション専用 配線に接続する.

2.2 動的再構成機能

ARAM は動的再構成機能を有しており,各セルの 機能部と配線部の構成,基本セルと乗算セルの入出力 レジスタの初期値,レジスタセル内の16ワードレジ スタの初期値を書き換えて,複数のコンテクストを時 分割実行する.ここで,構成情報とレジスタ初期値は, それぞれ構成情報メモリとデータメモリに保持してい る.1コンテクスト分の構成情報の詳細は表3に示す ようになっており,合計で16,752ビットとなる.な お,メモリセル内の256ワードのデータは動的再構成 時には書き換えないため[2],コンテクストには含めな い.再構成可能セルアレーに対してコンテクストは並 列に書き込まれ,32サイクルで切換が完了する.

2.3 マクロセルを用いたアプリケーション設計

ヘテロジニアス構成の再構成可能セルアレーでは, アプリケーションをマッピングする際に,各機能セル の比率や位置関係といった固有の性質による制約を考

| (a) セル単体によるマクロ | コセル                  |     |                                   |
|----------------|----------------------|-----|-----------------------------------|
| 処理             | 使用セル(個数)             | 面積* | 概要                                |
| 遅延 (8-bit)     | 基本セル (1) or 乗算セル (1) | 1   | 入出力レジスタによる 1 cycle 遅延             |
|                | レジスタセル (1)           | 1   | 1–16 cycles 遅延                    |
| 遅延 (1-bit)     | 基本セル (1)             | 1   | 1 bit シフトのシフトアウトによる 1-8 cycles 遅延 |
| 平均             | 基本セル (1)             | 1   | 加算後に 1 ビット右シフト                    |
| 累算             | 基本セル (1) or 乗算セル (1) | 1   | 出力レジスタを利用                         |
| マスク演算          | 基本セル (1)             | 1   | マスク値との論理和                         |
| 比較             | 基本セル (1)             | 1   | 定数(最大値のビット反転)との加算結果のキャリーアウトで判定    |
| 符号反転           | 基本セル (1)             | 1   | 符号ビットを示すフラグ入力により 0 との加減算を切換       |
| アップ/ダウンカウンタ    | 基本セル (1)             | 1   | 加減算によるインクリメント/デクリメント.イネーブル制御が可能   |
| 制御信号           | レジスタセル (1)           | 1   | レジスタセルのフラグ出力                      |
|                | 基本セル (1)             | 1   | 基本セルからのキャリーアウト,シフトアウト,符号信号        |
| アドレス変換         | レジスタセル (1)           | 1   | 入力アドレスでアドレス変換テーブルを参照              |
|                | メモリセル (1)            | 4   | 入力アドレスでアドレス変換テーブルを参照              |

表 4 マクロセル Table 4 Macro cells.

| (b) 複数セルの組合せに。          | b) 複数セルの組合せによるマクロセル |        |                                              |  |  |
|-------------------------|---------------------|--------|----------------------------------------------|--|--|
| 処理                      | 使用セル(個数)            | 面積*    | 概要                                           |  |  |
| 加減算 (9-32-bit)          | 基本セル (2-4)          | 2-4    | 隣接する複数の基本セルの連携によるビット幅の拡張                     |  |  |
| 可変長シフト (9-32-           | 基本セル (2-4)          | 2-4    | 隣接する複数の基本セルの連携によるビット幅の拡張 (-4 ~ +3-bit shift) |  |  |
| bit)                    |                     |        |                                              |  |  |
| <b>乗算</b> (16 × 8-bit)  | 基本セル (2), 乗算セル (2)  | 4      | 乗算と加算の組合せで実現                                 |  |  |
| <b>乗算</b> (16 × 16-bit) | 基本セル(5),乗算セル(4)     | 9      | 乗算と加算の組合せで実現                                 |  |  |
| テーブル (16, 24, 32-       | レジスタセル (2-4)        | 2-4    | 隣接する複数のテーブルによるビット幅の拡張                        |  |  |
| bit)                    |                     |        |                                              |  |  |
|                         | メモリセル (2-4)         | 8 - 16 | 隣接する複数のテーブルによるビット幅の拡張                        |  |  |
| ビット結合                   | 基本セル (3)            | 3      | マスク演算でビット抽出した結果同士の論理和をとる                     |  |  |
| 制御回路                    | レジスタセル (1),基本セル (1) | 2      | レジスタテーブルとカウンタによる 16 状態のステートマシン(シーケンサ)        |  |  |
| アドレス生成                  | 基本セル (2 以上)         | 2      | カウンタ出力から基本セル(シフタ , AND , OR など)で生成           |  |  |
| ビットストリームシフタ             | 基本セル (3)            | 3      | 隣接する基本セルの連携とレジスタイネーブル制御によるシフト幅の拡張            |  |  |
| 飽和処理                    | 基本セル (2)            | 2      | 大小比較の結果で MUX を制御.                            |  |  |
| ミスマッチ制御                 | 基本セル(6)             | 6      | 累算結果の最下位ビットとビット結合し,制御信号で出力制御                 |  |  |

\*) 基本セルの面積を1 としたときのマクロセルの面積.

慮する必要がある.既存のアーキテクチャでは,デー タフロー記述からの動作合成や,制御データフローグ ラフの機能セルへの自動マッピングツールが用意され ているが,実装効率を向上させるためには手作業によ るマッピングの改変が必要である[3].

ARAM の再構成可能セルアレーは,面積効率を優 先するため配線資源が大幅に限られているため,マッ ピングはより複雑になる.しかしながら,対象アプリ ケーション分野を限定しているため,頻繁に用いられ るマッピングを"マクロセル"として定義しておくこ とができる.現時点ではマッピングの自動化ツールは 整備されていないが,マクロセルを用いることでマッ ピング作業の効率化を図り,手作業によるマッピング であってもアプリケーション設計が可能である.

マクロセルは,表1に示すセルの基本機能に基づい て構成される.表4に示すメディア処理向けマクロセ ルは,セル単体によるマクロセルと,複数セルの組合 せによるマクロセルに分けられる.メディア処理向け マクロセルの例として,ビットストリームシフタ,飽 和処理,ミスマッチ制御のマクロセルの構成を付録2. で説明する.

マクロセルには,組合せ回路だけでなく,複数サイ クルで動作する順序回路も用意されている.複数サイ クルで動作するマクロセルを用いる場合,並列するパ ス上にタイミング調整用の遅延パッファを挿入する必 要があり,遅延サイクル数に応じて基本/乗算セルと レジスタセルを使い分ける.動作周波数を向上させる ためのパイプラインレジスタも同様に,セルの入出力 レジスタやレジスタファイルを用いる.

2.4 動的再構成のためのコンテクスト分割

コンテクストの切換頻度が高くなると処理時間の オーバヘッドが無視できなくなる.そこで,以下の基 準に従ってコンテクスト分割を決定する.

制御データフローグラフからマッピングに必要

なセル数を見積もり,使用セル数が配置配線のための 余裕をもつ(例えば,全セル数の60%以下)ように分 割する.

 各コンテクストでの処理サイクル数に対して、 コンテクスト切換オーバヘッドが比較的小さく(例え ば、各コンテクストでの処理サイクル数の10%以下) になるようにする。

 メモリセルのデータはコンテクスト切換の前後 で保持されるため、コンテクスト間で共有する中間 データを格納する.ただし、データサイズやアクセス 頻度に応じてデータメモリに格納する.

メモリセルの初期化はシステム起動時のみ可能
 であり、あるコンテクストでテーブルとして使用する
 メモリセルは、他のコンテクストでは使用しない.

3. 動画像復号処理のマッピング

# 3.1 複数動画像復号処理マッピングの概要

本論文で対象とする符号化方式のビットストリーム は、複数の階層で構成されており、そのうち下位層で あるマクロブロック層とブロック層がビットストリー ムの大半を占める.復号処理は,各マクロブロックの 先頭にあるヘッダの解析と,ヘッダ解析結果に基づく VLD, IQ, IDCT, MC の処理で構成される. ヘッダ解 析は符号化方式に依存し、復号処理における制御情報 を得る複雑な処理であるため,ホストプロセッサで実 行する.一方, VLD, IQ, ICDT, MCの各処理は, 符号化方式間で似通っているが,演算量が大きいため 再構成可能セルアレーで実行する.そこで, ARAM で は,図5に示すようなパイプライン処理を行う.図中 の網掛けの部分がビットストリームにアクセスする処 理であり,ホストプロセッサと再構成可能セルアレー で競合が発生しないようになっている.処理手順につ いて以下に示す.

(1) マクロブロック (i) のヘッダ解析終了後,再 構成可能アレーで VLD 以後の処理を開始.



図 5 動画像復号処理スケジューリング Fig.5 Process scheduling of MEPG-2 decoder.

(2) ホストプロセッサは引き続き MC 参照アドレ ス計算を実行.

(3) 再構成可能アレーからホストプロセッサへは 割込み信号によって各処理過程の終了を通知.

(4) ホストプロセッサから再構成可能アレーの動 的再構成を制御.

(5) MC 参照アドレス計算は,再構成可能アレー で MC の処理開始までに完了.

以下では各処理の再構成可能セルアレー上へのマッ ピング方針について述べる.

3.2 VLD のマッピング

VLD の入出力データ構成と処理内容を,それぞれ 表5と図6に示す.再構成可能セルアレーのコンテク スト切換が完了したあと,再構成可能セルアレーはマ クロブロックヘッダ部より後のビットストリームを外 部メモリから入力してメモリセルに格納する(図6の 2行目).その後,6プロック分のVLDを実行し,処 理終了時はホストプロセッサに対して割込み信号で通 知する.図7に,VLDのタイミングチャートを示す.

図6の4~6行目は,図8に示す制御データフロー グラフで表現され,これをマクロセルを用いてマッピ ングすることで,再構成可能セルアレー上にVLDを 実現することができる.符号長検出テーブルと可変長 符号テーブルは,そのサイズや内容は符号化方式に よって異なるが,テーブルサイズに応じてメモリセル とレジスタセルを組み合わせてマッピングされる.ま

表 5 VLD の入出力データ構成 Table 5 Input/output data format of VLD.

| 入力 | マクロブロックヘッダの後に続く 1 マクロブロック分<br>のビットストリーム          |
|----|--------------------------------------------------|
| 出力 | 量子化 DCT 係数(run/level/sign/eob の組合せ)<br>(6 プロック分) |

| 0. func_vld()                  |
|--------------------------------|
| 1. {                           |
| 2. 1マクロブロック分のビットストリームをメモリセルに   |
| バッファリング                        |
| <pre>3. while(6 blocks){</pre> |
| 4. ビットストリームに含まれる可変長符号の切り出し     |
| 5. 可変長符号テーブルを参照して量子化 DCT 係数    |
| (run/level/sign/eob) に変換       |
| 6. 生成した量子化 DCT 係数をメモリセルに格納     |
| 7. }                           |
| 8. }                           |
|                                |





図 7 VLD のタイミングチャート Fig. 7 Timing chart of VLD.



Fig. 8 Control data flow graph of VLD.



図 9 VLD のマッピング概要 Fig. 9 Outline of technology mapping result of VLD.

た,入力ビットストリームから可変長符号を切り出す ためのビットストリームシフタは,マクロセルを用い てマッピングされる.ビットストリームシフタでは,1 サイクルで最大8ビットのビットストリームを読み込 むため,一つの可変長符号の処理に必要なサイクル数 は符号長によって異なる.例えば,MPEG-2デコーダ では,最も長いエスケープコードの復号には3サイク ル必要である.

ここで,マッピングの一例として,VLDのマッピ

| 表 6 1 | [Q の入出力デー | タ構成 |
|-------|-----------|-----|
|-------|-----------|-----|

Table 6 Input/output data format of IQ.

| 入力 | 量子化 DCT 係数 (run/level/sign/eob | の組合せ) |
|----|--------------------------------|-------|
|    | (6 ブロック分)                      |       |

出力 8×8 DCT 係数行列 (6 ブロック分)

0. func\_iq()

1. {

- while(6 blocks){
- 3. メモリセルから run/level/sign/eob の読み出し
- level と 量子化係数との乗算, 飽和処理, ミスマッチ 制御による DCT 係数の生成
- run の累算結果をインデックスとして逆スキャン用 テーブルを参照し、メモリセルへの書き込みアドレス を生成
- 6. 生成した DCT 係数をメモリセルに格納

7. } 8. }

#### 図 10 IQ の処理内容 Fig. 10 Process of IQ.

ング概要を図 9 に示す.また,図中の記号を用いて, VLDの処理手順の詳細を以下に示す.

(1) 符号長検出テーブルの出力(b)は、下位4ビットが符号長(シフト幅)(c)、上位4ビットが可変長符 号復号テーブル選択などの制御信号(d)で構成される.

(2) 符号長が8ビット以下の場合は, 各テーブル A を参照し (b,e), 符号長と量子化 DCT 係数を出力 する (e).

(3) 符号長が9ビット以上の場合,符号長検出 テーブルAからは,シフト幅が8ビット(c),制御信 号は各テーブルBを参照する情報が出力される(d). 次のサイクルで各テーブルBを参照し,符号長及び量 子化DCT係数を出力する(e).

(4) 符号長が 17 ビット以上の場合は更にもう 1 サイクルかけて量子化 DCT 係数を出力する.

以上のことから,図6に示す VLDの処理が,制御 データフローグラフとマクロセルを用いてマッピング できることが分かる.

3.3 IQ のマッピング

IQの入出力データ構成と処理内容を,それぞれ表 6 と図 10 に示す.

図 10 の 3~6 行目は,図 11 に示す制御データフ ローグラフで実現され,これをマクロセルを用いて再 構成可能セルアレー上にマッピングすることで,IQを 実現することができる.ジグザグスキャン用テーブル (b) と量子化行列テーブル(d) は 64 エントリである ためそれぞれ1個のメモリセルにマッピングされ,累



図 11 IQ の制御データフローグラフ Fig. 11 Control data flow graph of IQ.

表 7 IDCT の入出力データ構成 Table 7 Input/output data format of IDCT.

| 入力 | 8×8 DCT 係数行列(6 ブロック分)  |
|----|------------------------|
| 出力 | 8 × 8 予測誤差データ(6 ブロック分) |
|    |                        |

算(a), 乗算(c, e), 飽和処理(f), 符号反転(g), ミ スマッチ制御(h)はすべてマクロセルを用いてマッピ ングされる.テーブルの内容や, 飽和処理, ミスマッ チ制御の内容は符号化方式によって異なるが, 処理手 順は似通ったものとなっている.また, 一つの DCT 係数は1サイクルで生成することができるが, パイプ ラインレジスタの挿入による動作周波数の向上や, 並 列処理化によって,使用セル数に応じたスループット の向上も可能である.

3.4 IDCT のマッピング

IDCT の入出力データ構成と処理内容を,それぞれ 表7と図12に示す.IDCTは,一次元IDCT(1D-IDCT)を行方向と列方向に実行することで実現で きる.本論文では,1D-IDCTにChenのアルゴリズ ム[4]を採用し,2個の4成分行列乗算の結果にバタ フライ演算を適用する.これにより24回に削減した 乗算を,3個の乗算器を用いて8サイクルで実行する ことができる.

図 12 の 4~7,9~12 行目は,図 13 に示す制御デー タフローグラフで表現され,これをマクロセルを用い て再構成可能セルアレー上にマッピングすることで, 1D-IDCT を実現することができる.乗算係数テーブ ルは 16 ビット 8 ワードであるため,2 個のレジスタ セルを連携させてマッピングされる (a).16×8 ビッ ト乗算器 (b),24 ビット加算器,32 ビット加算器,32

| 0. f  | unc_idct()                             |
|-------|----------------------------------------|
| 1. {  |                                        |
| 2.    | while(6 blocks){                       |
| 3.    | for(i=0; i<8; i++){ //1D-IDCT 演算 (行方向) |
| 4.    | メモリセルから 8 成分 DCT 係数の読み出し               |
| 5.    | 1D-IDCT 演算 (行方向) の実行                   |
| 6.    | バタフライ演算に必要な並べ替えのためのメモリ                 |
|       | セル書き込みアドレスの生成                          |
| 7.    | 1D-IDCT 演算 (行方向) 結果をメモリセルに格納           |
| 8.    | }                                      |
| 9.    | for(j=0; j<8; j++){ //1D-IDCT 演算 (列方向) |
| 10.   | メモリセルから 8 成分 DCT 係数の読み出し               |
| 11.   | 1D-IDCT 演算 (列方向) の実行                   |
| 12.   | メモリセル書き込みアドレスの生成                       |
| 13.   | 1D-IDCT 演算 (列方向) 結果をメモリセルに格納           |
| 14.   | }                                      |
| 15.   | }                                      |
| 16. } |                                        |



Fig. 12 Process of IDCT.



図 13 IDCT の制御データフローグラフ Fig. 13 Control data flow graph of IDCT.

ビット加減算器は,それぞれマクロセルを用いてマッ ピングされる(c).なお,1サイクルの遅延バッファは, 後に続く32ビット加算器(基本セル)の入力レジス タにマッピングされる(d).

IDCT の構成は動画像復号方式に依存しないため, 共通のマッピングが適用できる.また, IDCT は, IQ と同様に並列処理が容易であるため,使用セル数に応 じたスループットを実現することができる.また,パ イプラインレジスタを挿入すれば,スループットの向 上を図ることができる.

3.5 MCのマッピング

MCの入出力データ構成と処理内容を,それぞれ 表8と図14に示す.また,図15に,MCのタイミ ングチャートを示す.MC参照アドレスはホストプロ

表 8 MC の入出力データ構成 Table 8 Input/output data format of MC.

| 入力 | 8 × 8 予測誤差データ (6 ブロック分),               |
|----|----------------------------------------|
|    | 参照画素データ(MC 参照アドレスを用いてフレーム<br>メモリから読出し) |
| 出力 | 復元画像データ(6 ブロック分)                       |

| 0. func_mc()                    |
|---------------------------------|
| 1. {                            |
| <pre>2. while(6 blocks){</pre>  |
| 3. for(i=0; i<8; i++){ //行単位の処理 |
| 4. ホストプロセッサから MC 参照アドレスを取得      |
| 5. フレームメモリから参照画素データを取得し、レジ      |
| スタセルにバッファリング                    |
| 6. 参照画素データから予測画素データを生成          |
| 7. メモリセルから予測誤差データを読み出し          |
| 8. 予測誤差データと参照画素データとの加算結果から      |
| 復元画像データを生成し,レジスタセルにバッファ         |
| リング                             |
| 9. 復元画像データを外部メモリに出力             |
| 10. }                           |
| 11. }                           |
| 12. }                           |

図 14 MC の処理内容 Fig. 14 Process of MC.



セッサインタフェースを介して転送され(図14の4 行目),フレームメモリからの参照画素データの読出 し(図14の4行目)や,復元画像データの書込み (図14の9行目)は,外部メモリインタフェースを介 して実行される.この一連の処理はプロック単位で実 行される.

図 14 の 6 行目は MC での演算の大半を占める半 画素生成処理であり,図 16 (a) に示す制御データフ ローグラフで表現される.参照画素データを1 ライン ずつ読み込み,2 個または4 個の画素データから半画 素データを算出する.(h<sub>x</sub>, h<sub>y</sub>) = {(1,0),(0,1),(1,1)} とすることで,2 個の平均演算により,図 16 (b) に示



図 16 MC の予測画素生成部の制御データフローグラフ. Fig. 16 Control data flow graph of half-pel manipulator in MC.

表 9 マッピング対象とした動画像復号処理 Table 9 Implemented video decoders.

| 符号化方式  | プロファ<br>イル | フレームサ<br>イズ      | フレーム             | ビットレー<br>ト        |
|--------|------------|------------------|------------------|-------------------|
| MPEG-2 | Main       | $720 \times 480$ | 30 fps           | 6 Mbit/s          |
| H.263  | Baseline   | $352 \times 288$ | $30\mathrm{fps}$ | $384{\rm kbit/s}$ |
| MPEG-4 | Simple     | $352 \times 288$ | $30\mathrm{fps}$ | $384{\rm kbit/s}$ |

す半画素1,2,3をそれぞれ生成する.遅延バッファや 平均処理はマクロセルを用いて再構成可能アレー上に 容易にマッピングされる.

MC では,符号化方式に依存する動きベクトル計 算をホストプロセッサで行うため,再構成可能セルア レーで行う主な処理は符号化方式に大きく依存しない. また,一つの画素データを1サイクルで生成すること ができるが,IDCT や IQ と同様に並列処理が容易で あるため,参照アドレスや参照画素データの入力に問 題がなければ,使用セル数に応じたスループットを得 ることができる.

3.6 マッピング結果

以上で述べたマッピング方針に従い,表9に示す MPEG-2 デコーダ,H.263 デコーダ,MPEG-4 デコー ダの各処理過程を再構成可能セルアレー上にマッピン グした.各処理過程のマッピングに用いたセル数とそ の使用率(面積割合)をコンテクストごとにまとめた ものを表10に示す.

MPEG-2 デコーダは,VLD/IQ,IDCT (row), IDCT (column), MC の4 コンテクストに分割した. VLD と IQ は同一コンテクスト上にマッピングするた め,VLD で生成したデータはメモリセルに格納せず 直接 IQ で処理を行い,IQ の処理結果をメモリセルに 格納する.MC では双方向予測に対応するため,予測

| Table 10 Cell utilization. |        |    |    |      |     |       |  |
|----------------------------|--------|----|----|------|-----|-------|--|
|                            |        |    | 使  | 用セル数 |     |       |  |
| コンテ                        | ウスト    | 基本 | 乗算 | レジスタ | メモリ | 使用率** |  |
|                            | VLD/IQ | 80 | 3  | 11   | 11  | 57.5% |  |
| $\rm MPEG\text{-}2$        | IDCT*  | 52 | 12 | 13   | 8   | 45.4% |  |
|                            | MC     | 87 | 0  | 15   | 4   | 49.2% |  |
|                            | VLD/IQ | 63 | 1  | 14   | 8   | 45.8% |  |
| H.263                      | IDCT*  | 52 | 12 | 13   | 8   | 45.4% |  |
|                            | MC     | 87 | 0  | 15   | 4   | 49.2% |  |
|                            | VLD    | 83 | 0  | 13   | 9   | 55.0% |  |
| $\operatorname{MPEG-4}$    | IQ     | 36 | 4  | 0    | 9   | 31.7% |  |
|                            | IDCT*  | 52 | 12 | 13   | 8   | 45.4% |  |
|                            | MC     | 65 | 0  | 9    | 4   | 37.5% |  |

表 10 使用セル数 Table 10 Cell utilization

\*) 行方向と列方向で必要なセル数は同じ.

\*\*) メモリセルの面積比率が他のセルの 4 倍であることを考慮.

表 11 使用マクロセル

Table 11 Used macro-cell.

| MPEG-27  |                                     |       |
|----------|-------------------------------------|-------|
| コンテクスト   | 使用マクロセル(数)                          | 割合*   |
| VLD/IQ   | 累算 (3), カウンタ (2), 制御信号 (3), 加算 (1), | 54.8% |
|          | 乗算 (2), バッファ(3), テーブル (13), ビット     |       |
|          | 結合 (2),制御回路 (1),ビットストリームシフ          |       |
|          | タ (1), 飽和処理 (1), ミスマッチ制御 (1)        |       |
| IDCT     | 遅延 (2), カウンタ (1), 制御信号 (2), 乗算 (3), | 91.8% |
|          | 加減算 (6), バッファ(3), テーブル (3), 制御回     |       |
|          | 路 (1), アドレス生成 (1)                   |       |
| MC       | 遅延(4), 平均(5), 累算(3), カウンタ(5), 制     | 71.7% |
|          | 御信号 (13), ビット結合 (9), 制御回路 (1), 加    |       |
|          | 減算 (1), バッファ(5)                     |       |
| Н.263 デコ | ーダ                                  |       |
| コンテクスト   | 使用マクロセル(数)                          | 割合*   |
| VLD/IQ   | 累算 (3), カウンタ (1), 制御信号 (9), 加算 (1), | 50.0% |
|          | 乗算 (1), バッファ(3), テーブル (15), ビット     |       |
|          | 結合 (1),制御回路 (1),ビットストリームシフ          |       |
|          | タ(1), 飽和処理(1), ミスマッチ制御(1)           |       |
| IDCT     | 遅延 (2), カウンタ (1), 制御信号 (2), 乗算 (3), | 91.8% |
|          | 加減算 (6), バッファ(3), テーブル (3), 制御回     |       |
|          | 路 (1), アドレス生成 (1)                   |       |
| MC       | 遅延(4),平均(5),累算(3),カウンタ(5),制         | 71.7% |
|          | 御信号 (13), ビット結合 (9), 制御回路 (1), 加    |       |
|          | 減算 (1), バッファ(5)                     |       |
| MPEG-4 7 | -<br>ゴーダ                            |       |
| コンテクスト   | 使用マクロセル(数)                          | 割合*   |
| VLD      | 累算 (2), カウンタ (1), 符号反転 (1), 制御信     | 52.4% |
|          | 号 (17), 可変長シフト (3), バッファ(3), テー     |       |
|          | ブル (15), ビット結合 (3), 制御回路 (1), ビッ    |       |
|          | トストリームシフタ (1)                       |       |
| IQ       | 累算 (1), カウンタ (1), 制御信号 (4), 加算 (1), | 83.7% |
|          | 乗算 (2), バッファ(5), テーブル (2), ビット結     |       |
|          | 合 (2), 飽和処理 (1), ミスマッチ制御 (1)        |       |
| IDCT     | 遅延(2), カウンタ(1), 制御信号(2), 乗算(3),     | 91.8% |
|          | 加減算(6), バッファ(3), テーブル(3), 制御回       |       |
|          | 路 (1), アドレス生成 (1)                   |       |
| MC       | 遅延(2),平均(2),累算(2),カウンタ(4),制         | 71.8% |
|          | 御信号 (11), ビット結合 (7), 制御回路 (1), 加    |       |
|          | 減算 (1), バッファ(3)                     |       |

\*) 全使用セルに占めるマクロセルの割合.

メモリセルの面積比率が他のセルの4倍であることを考慮.

画素生成回路を二つ並列にマッピングしている.

H.263 デコーダは, MPEG-2 デコーダと同じコン テクスト構成とした.IQ のマッピングでは,量子化 行列やミスマッチ制御が MPEG-2 と比較して簡単で あるため,使用基本セル数は少ない.また,IDCT と MC のマッピングは MPEG-2 と共通である.

MPEG-4 デコーダの VLD では 3 種類のエスケー プコードを扱うため,他のアルゴリズムより処理が複 雑になり,使用セル数が多くなる.そこで,VLD と IQ を別コンテクストとして,5 コンテクストに分割し た.IDCT のマッピングは,MPEG-2 デコーダと共 通である.MC には 4vector モードなど MPEG-2 デ コーダにはない機能を有するが,双方向予測が不要で あるため,結果的に MPEG-2 デコーダよりセル数が 少なくなる.

また,マッピングに使用したマクロセルの内訳を 表11に示す.IDCTのように比較的単純なデータパ ス回路の場合,全使用セル中のマクロセルの比率が大 きい.一方で,VLDはセルの基本機能によるマッピン グが多くなるため,マクロセルの割合が小さい.VLD 以外の処理ではマクロセルの割合は約70%以上となっ ており,マクロセルが動画像復号処理の効率的なマッ ピングに有効であることが分かる.

# 4. 実装結果

### 4.1 配置配線

再構成可能アーキテクチャ上にアプリケーションを 実装するため,前述のマッピング後に配置配線を行う 必要がある.そこで,FPGA向け配置配線手法である VPR [5] に基づき,自動配置配線ツールを作成した.

配置配線の例として,各動画像復号処理で共通する IDCT について述べる.図13に示した制御データフ ローグラフにデータ入出力用のメモリセル,タイミ ング調整用のレジスタなども含めたマッピング結果を 図17(a)に示す.このマッピング結果に対して配置配 線を行った結果,図17(b)に示すような実装結果が得 られた.図中の数字は,図17(a)と図17(b)で対応 しており,効率良く配置配線されていることが分かる.

次に,動画像復号処理の実装例として,表 10 で最 もセル使用率の高い MPEG-2 デコーダについて,各 コンテクストの配置配線結果を図 18 に示す.

まず,図 18 (a) に示す VLD/IQ では,アレー左上 にある基本セルが外部メモリインタフェースとして機 能し,入力されたビットストリームをアレー左上のメ



図 18 MPEG-2 デコーダの配置配線結果 Fig. 18 Implementation result of MPEG-2 decoder.

モリセルに格納する.およそ下半分のセルアレーで VLD を実装しており,アレー下側の四つのメモリセ ルは符号長検出テーブルと復号化テーブルのマッピン グしている.一方,上半分のセルアレーに IQ を実装 しており,アレー右上の二つのメモリセルはジグザグ スキャン用アドレステーブルと量子化行列のマッピン グしている.VLD/IQ の処理結果はアレー中央左側に 枠で囲んだ四つのメモリセルに格納する.

次に,図 18 (b) に示す IDCT (row) では,アレー 中央左側の四つのメモリセルから IQ の処理結果を読 み出し,1-D IDCT 演算を実行した後,アレー中央右 側のメモリセルに結果を格納する.同様に図 18 (c) に

表 12 配置配線後のセル使用数

| Table 12 Cell utilizati | on after p | placement and | d routing. |
|-------------------------|------------|---------------|------------|
|-------------------------|------------|---------------|------------|

| コンテ    | クスト    | マッピング | 配線のみ | 使用数(使用率)*   |
|--------|--------|-------|------|-------------|
|        |        | に使用   | に使用  |             |
|        | VLD/IQ | 138   | 81   | 219 (91.3%) |
| MPEG-2 | IDCT   | 109   | 60   | 169~(70.4%) |
|        | MC     | 118   | 82   | 200~(83.3%) |
|        | VLD/IQ | 110   | 35   | 145~(60.4%) |
| H.263  | IDCT   | 109   | 60   | 169~(70.4%) |
|        | MC     | 118   | 82   | 200~(83.3%) |
|        | VLD    | 132   | 37   | 169 (70.4%) |
| MPEG-4 | IQ     | 76    | 18   | 94 (39.2%)  |
|        | IDCT   | 109   | 60   | 169(70.4%)  |
|        | MC     | 90    | 66   | 156~(65.0%) |

\*) メモリセルの面積比率が他のセルの 4 倍であることを考慮 し,全セル数を 240 とする.



図 19 IDCT の配置配線結果を用いたシミュレーション 結果(動作周波数 80 MHz) Fig. 19 Simulation wave form of IDCT.

示す IDCT (column) では , アレー中央右側のメモリ セルからデータを読み出し , 1-D IDCT 演算を実行し た後 , アレー中央左側のメモリセルに結果を格納する .

最後に,図 18(d) に示す MC では,まず,アレー 左側にある基本セルがホストプロセッサインタフェー スとして機能し,MC 参照アドレス情報が入力され る.また,アレー上側にある基本セルが外部メモリイ ンタフェースとして機能し,参照画素データが入力さ れる.参照画素データから生成した予測画素データと, アレー中央左側のメモリセルから読み出した予測誤差 データから,復元画像データを生成し,アレー下方に あるレジスタセルにバッファリングする.アレー下側 にある基本セルも外部メモリインタフェースとして機 能し,レジスタセルにバッファリングしている復元画 像データを,フレームメモリに書き込む.

表 12 に示す配置配線結果から,MPEG-2 デコー ダ,H.263 デコーダ,MPEG-4 デコーダが高いセル使 用率を達成できていることが分かる.また,コンテク スト分割を決定する基準としてセル使用率を 60%とす

#### 表 13 MPEG-2 MP@ML デコーダ実装例

Table 13 Implementation results of MPEG-2 MP@ML decoder.

|     | 実装方式       | 面積               | テクノ            | 動作周波数 | 面積 $(mm^2)$ | 面積性能効率                              | 備考                                        |
|-----|------------|------------------|----------------|-------|-------------|-------------------------------------|-------------------------------------------|
|     |            | $(mm^2)$         | ロジー            | (MHz) | (90 nm 換算)  | $(pixels/sec \cdot mm^2 \cdot MHz)$ |                                           |
| (a) | ARAM $[2]$ | $1.1 \times 1.4$ | 90 nm          | 80    | 2.64*       | 49,091                              | ARM9TDMI と協調動作 . MPEG-4 SP , H.263        |
|     |            |                  |                |       |             |                                     | Baseline の CIF, 30 fps デコード可能.74.2 k gate |
| (b) | ASIC [6]   | $15 \times 15$   | $0.5\mu{ m m}$ | 40    | 7.29        | 69,350**                            | 70 MHz 動作時に 1152 × 1024 画素のリアルタイム         |
|     |            |                  |                |       |             |                                     | デコードが可能                                   |
| (c) | ASIC [7]   | 8.6 	imes 9.3    | $0.5\mu{ m m}$ | 54    | 2.59        | 74,093                              | MPEG Audio layer I/II デコーダも実装             |

\*) ARM926EJ (I-cache 8KB, D-cache 8KB) の面積 1.1 mm<sup>2</sup>(90 nm) も含む.

\*\*) 70 MHz 動作時の処理性能で換算.

# 表 14 再構成可能アーキテクチャによる動画像復号処理の実装例

Table 14 Implementation results of video decoder on reconfigruable architecture.

|     | 実装方式       | デバイス          | 処理方式      | 動作周波数               | 回路規模*                | 備考                                               |
|-----|------------|---------------|-----------|---------------------|----------------------|--------------------------------------------------|
|     |            |               |           | (MHz)               |                      |                                                  |
| (d) | 粗粒度再構成可    | RICA [8]      | 2D-DCT    | $448.8\mathrm{MHz}$ | $0.911\mathrm{mm}^2$ | 2D-DCT を 3.01 µs で実行.面積はプログラムメモリは含め              |
|     | 能デバイス [8]  |               |           |                     | (90nm 換算)            | ず , OpenRISC の 7.6 倍 , ARM7-TDMI-S の 5.9 倍 .     |
| (e) | 粗粒度再構成可    | RICA [8]      | H.264     | N/A                 | N/A                  | NTSC D-1, 21 fps . スタンダードコアの面積は OpenRISC         |
|     | 能デバイス [9]  |               | デコーダ      |                     |                      | の 4 倍 .                                          |
| (f) | 粗粒度再構成可    | DRP-1 [11]    | MPEG-2    | 22.3                | 約 2200 万トラ           | SD, 30 fps.VLD, IQ, IDCT のパイプライン実装.MC も          |
|     | 能デバイス [10] |               | デコーダ      |                     | ンジスタ                 | 含めた実装にはコンテクスト数やタイル数の拡張が必要                        |
| (g) | 粗粒度再構成可    | ADRES [13]    | H.264/AVC | 100                 | $4 \mathrm{mm}^2$    | CIF , 25 fps . 27 MHz 動作で CIF MPEG-2 デコードも可能 .   |
|     | 能デバイス [12] |               | デコーダ      |                     | (90 nm)              |                                                  |
| (h) | 粗粒度再構成可    | XPP-III [15]  | H.264/AVC | 400                 | $75\mathrm{mm}^2$    | HD,24fps.XPP40.16.8アレー(40 ALU-PAEs, 16 RAM-      |
|     | 能デバイス [14] |               | デコーダ      |                     | (90 nm)              | PAEs, 8 FUC-PAEs)                                |
| (i) | FPGA [16]  | FLEX10K       | MPEG-2    | 29.8                | 120  k gate          | SD, 30 fps . LE (logic) 60% , EAB (memory) 46%使用 |
|     |            | 200E [17]     | デコーダ      |                     | (換算値)                |                                                  |
| (j) | FPGA [18]  | Virtex-II Pro | H.264/AVC | 100                 | 189k gate            | HD,64 fps.ただし,エントロピーデコーダを除く.                     |
|     |            | XC2VP30 [19]  | デコーダ      |                     | (換算値)                |                                                  |
| (k) | FPGA [20]  | Vertex-II     | MPEG-4    | 100                 | 186 k gate           | パイプライン処理により 4CIF 30 fps を達成                      |
|     |            | XC2V3000 [21] | エンコーダ     |                     | (換算値)                |                                                  |
| (1) | FPGA [22]  | Stratix       | MPEG-4    | 70                  | 243 k gate           | NIOS CPU を 4 個実装し , QIF 6 fps を達成                |
|     |            | EP1S40 [23]   | エンコーダ     |                     | (換算値)                |                                                  |
| (m) | FPGA [24]  | Stratix       | MPEG-4    | 50                  | 227 k gate           | NIOS CPU を 4 個実装し , QIF 13 fps を達成               |
|     |            | EP1S40 [23]   | エンコーダ     |                     | (換算値)                |                                                  |

\*) FPGA の回路規模は、使用された LUT 数や LE 数から換算.

ることも妥当であるといえる.

再構成可能セルアレーの HDL コードと,配置配線 結果として得られる配置配線結果を用いて機能検証を 行った.論理シミュレーションの実行例として,図19 に1D-IDCT の論理シミュレーション結果を示す.論 理シミュレーション結果から,1マクロブロック(6ブ ロック)の処理を400 サイクルで完了できていること が分かる.

### 4.2 他の実装方式との比較

まず, ASIC による実装結果と比較するため, MPEG-2 MP@ML デコーダの実装結果を表 13 に 示す.デコードに必要な演算量はビットレートにも依 存するため単純な比較は困難であるが,単位時間当り に復号される画素数をデコード処理性能と定義する. ここで,面積性能効率としては,単位面積当りのデ コード処理性能で比較するべきであるが,製造プロセスのスケーリングによる動作周波数の向上も考慮する必要があるため,更に動作周波数で正規化した.外部インタフェースなどの周辺回路が異なり,更に実装例(b)では MPEG Audio デコーダも実装されていることも考慮する必要があるが,ARAM は ASIC の面積性能効率に対し 30%程度劣っていることが分かる.しかしながら,詳細は次章で述べるが,ARAM ではアレー構造のスケーラビリティを利用した処理性能の拡張性を有し,これが専用回路による実装に対する優位性となっている.

次に,再構成可能アーキテクチャによる動画像復号 処理の実装例を表 14 に示す.実装例 (d) では,命令 セットベースで Instruction cell を合成し,プログラ ムをマッピングする RICA [8] を用い,2D-DCT を小 面積で実現できている.しかし, RICA の面積はプロ グラムメモリ等のサイズを除いた数値となっている. 実装例 (e) では, RICA による H.264/AVC デコーダ の実装が報告されているが, スタンダードコアと呼ば れる回路のサイズ以外は明記されておらず, 明確な比 較が困難である.

実装例 (f) では, DRP-1 [11] による MPEG-2 デ コーダの実装例が報告されている.ARAM より低 い動作周波数で MPEG-2 デコーダを実現している が,回路規模が大きくなっている.また,参考までに, H.264/AVC デコーダの実装例 (g), (h) と比較すると, デコードフレームサイズは大きく異なるが,回路面積 はそれぞれ ARAM の 1.5 倍, 28 倍となっている.た だし,H.264/AVC ではエントロピーデコーダも含め て複雑な制御処理が多くなるため,ARAM で実装す る場合は,より高性能なホストプロセッサが必要にな ると考えられる.

実装例(i)では、FPGAによる MPEG-2 デコーダの実装例が報告されている.ARAM と比較して、動作周波数は低くなるが、回路規模が1.6倍となっている.FPGAによるH.264/AVC デコーダの実装例(j)では、HD サイズのデコードをARAMの2.5倍の回路規模で実現するが、演算量の大きいエントロピーデコーダを除いた数値である.また、参考までに、動画像符号化処理である MPEG-4 エンコーダの実装例(k),(l),(m)と比較すると、フレームサイズやフレームレートは異なるが、符号化処理は演算量が大きくなるため、回路規模はそれぞれ2.5倍、3.3倍、3.1倍となっている.

- アプリケーション設計における拡張性 評価
- 5.1 性能拡張

ARAM のアレー構造はヘテロジニアス構造であり ながらタイルを基本単位としているため,動画像復号 処理の画素並列性を生かした性能拡張が可能である. ただし,再構成可能セルアレーの性能拡張に合わせ て,協調動作を行うプロセッサもより高い性能が求め られる.

動画像復号処理の高性能化として,フレームサイズ を拡大すると,単位時間当りに処理すべきマクロプ ロック数が増大する.また,ビットレートを向上させ ると,可変長符号のシンボル数が増大する.ここで, 動画像復号処理における各処理過程の演算量は,VLD では可変長符号のシンボル数に依存し, IQ, IDCT, MCでは画素数(マクロブロック数)に依存するとい う性質がある.また, IQ, IDCT, MC は画素並列処理 が可能であるのに対して, VLD は並列処理が困難で ある.以上のことを考慮して,(1) 各コンテクストに おいて処理を並列化する手法と,(2) 各コンテクスト を展開しパイプライン化する手法による ARAM の性 能拡張について,以下に説明する.

(1) コンテクスト内処理並列化による性能拡張

ARAM は, CIF, 384 kbit/s の MPEG-4 リアル タイムデコードが可能である.ところが,最近では 携帯電話による動画像撮影・再生機能として VGA (640 × 480 画素)に対応し,データ通信速度も下り 7.2 Mbit/s を達成する.そこで, MPEG-4 デコーダ を VGA, 7.2 Mbit/s に対応させる性能拡張について 述べる.

フレームサイズが VGA の場合,マクロブロック 数から逆算して,1マクロブロックの要求処理時間は 27.78  $\mu$ s になる.ここで,シンボル数がビットレート に比例すると仮定すると,CIF,384 kbit/s から VGA, 7.2 Mbit/s になれば,1マクロブロック当りのシンボ ル数は 6.18 倍になると考えられる.表 15 (a) に示す ように,CIF,384 kbit/s デコード時の VLD の処理 時間は,ホストプロセッサへの割込みや動的再構成に かかるオーバヘッド (1.53  $\mu$ s) を含めて 2.58  $\mu$ s になる ことから,VGA,7.2 Mbit/s デコード時の1マクロブ ロックの処理時間は,((2.58 – 1.53) × 6.18 + 1.53) + 5.51 + 11.18 + 7.73 = 32.43  $\mu$ s となり,要求処理時間 を満たせない.

そこで,再構成可能セルアレーのサイズを図 20 (b) に示すように 2 倍に拡大し, IQ, IDCT, MC の処理 時間を半減 (オーバヘッド除く)させると,1 マクロ プロックの処理時間は図 21 (b) に示すように 21.87 µs

表 15 MPEG-4 デコーダの性能拡張 Table 15 Performance enhancement of MPEG-4 decoder.

|           |           | (a) 拡張前                | (b) 拡張後                |
|-----------|-----------|------------------------|------------------------|
| フレームサ     | イズ        | CIF $(352 \times 288)$ | VGA $(640 \times 480)$ |
| ビットレー     | ٠ŀ        | $384{\rm kbit/s}$      | $7.2\mathrm{Mbit/s}$   |
| フレームレ     | - ト       | 30 fps                 | 30 fps                 |
| マクロブロッ    | ク数        | 11,880                 | 36,000                 |
| 要求処理時間    | $[\mu s]$ | 84.18                  | 27.78                  |
|           | VLD       | 2.58 (1.53)            | 8.02 (1.53)            |
| 処理時間      | IQ        | 5.51(0.59)             | 3.05(0.59)             |
| (オーバヘッド)  | IDCT      | 11.18 (1.18)           | 6.18(1.18)             |
| $[\mu s]$ | MC        | 7.73 (1.53)            | 4.63(1.53)             |
|           | TOTAL     | 26.99 (4.81)           | 21.87 (4.81)           |





Fig. 20 Mapping scalability for the enhancement of frame size on MPEG-4 decoder.



- 図 21 MPEG-4 デコーダにおける 1 マクロブロックの処 理時間とそのスケジューリング
- Fig. 21 Process scheduling for the enhancement of frame size on MPEG-4 decoder.

となり,要求処理時間を満たすことができる.

以上のように, IQ, IDCT, MC の画素並列性を利 用することで,動画像復号処理の性能拡張が可能とな る.一方で,並列処理が困難な VLD がボトルネック となることが課題である.

(2) コンテクストパイプライン化による性能拡張

より大幅な高性能化が求められる場合,前述のような単純なアレー規模拡大による時分割実行では対応できない場合がある.ARAMは,SD,6 Mbit/sの MPEG-2 リアルタイムデコードが可能であるが,既に 処理能力の上限に近い.例えば,これをBS ハイビジョン放送で要求される HD(1920 × 1088),24 Mbit/s に 対応させる性能拡張について考える.

まず,フレームサイズが HD の場合,1マクロブ ロックの要求処理時間は 4.08 µs になる.ここで,1マ クロブロック当りのシンボル数は,ビットレートとマ クロブロック数から計算して 0.66 倍になると考えら れるが,アレーサイズを拡大して IDCT,MC の処理 (表 16 (a))を高速化しても,要求処理時間を満たす ことは困難である.

そこで,図 22(b) に示すように,IDCT と MC を 2 倍の数のセルで処理することで処理時間を削減し, 更に時分割実行していた各コンテクストを空間展開し, パイプライン化することで大幅な性能拡張を行う.こ

|          | 表 16 MPEG-2 デコーダの性能拡張                     |
|----------|-------------------------------------------|
| Table 16 | Performance enhancement of MPEG-2 decoder |

|           |              | (a) 拡張前               | (b) 拡張後                 |
|-----------|--------------|-----------------------|-------------------------|
| フレームサ     | イズ           | SD $(720 \times 480)$ | HD $(1920 \times 1088)$ |
| ビットレ-     | -ト           | 6 Mbit/s              | 24 Mbit/s               |
| フレームレ     | <b>-</b> ト   | $30\mathrm{fps}$      | $30  \mathrm{fps}$      |
| マクロブロッ    | ック数          | 40,500                | 244,800                 |
| 要求処理時間    | $[\mu s]$    | 24.69                 | 4.08                    |
| 処理時間      | $\rm VLD/IQ$ | 5.03(1.53)            | 3.44 (1.13)             |
| (オーバヘッド)  | IDCT         | 11.18 (1.18)          | 5.38(0.38)              |
| $[\mu s]$ | MC           | 7.96(1.53)            | 3.78(1.13)              |
|           | TOTAL        | 24.16 (4.23)          | 3.78 ()                 |



図 22 MPEG-2 デコーダのフレームサイズ拡張に対する マッピング

Fig. 22 Mapping scalability for the enhancement of frame size on MPEG-2 decoder.



理時間とそのスケジューリング

Fig. 23 Process scheduling for the enhancement of frame size on MPEG-2 decoder.

れにより,1マクロブロックの処理時間は,図 23 (b) に示すように 4.08 µs 以下になり,このときの再構成 可能セルアレーのサイズは,拡張前の6倍になる.ま た,各コンテクストを空間展開したことで動的再構成 のオーバヘッドがなくなるため,表16 (b)に示すよう に,性能拡張後のオーバヘッドが小さくなっている.

ここで,図 23(b) に示すように,各コンテクスト を時分割実行せず空間展開すると,協調動作するホ ストプロセッサにはより高い性能が求められる.SD, 6 Mbit/s デコードの場合,図 23(a)から,ホストプロ セッサによる1マクロブロック分のヘッダ解析とMC 動きベクトル計算は 19.14 µs 以内に完了すればよい. ところが, HD, 24 Mbit/s デコードの場合, 図 23 (b) に示すように, 4.08 µs 以内に 1 マクロブロック分の ヘッダ解析と MC 動きベクトルの計算を行うだけの性 能が求められる.

#### 5.2 機能拡張

ARAM 上に,図 24 に示すようなポリフェーズ構 成の等分割フィルタバンクを実現する.このような フィルタバンクは MPEG Audio でも使用されており, オーディオ信号を 32 のサブバンドに分割し,周波数 分割には 512 タップのポリフェーズフィルタバンクを 適用している [25].

図 24 に示す 1 サンプル 16 ビットの分割フィルタ を実現する.1 チャネル 16 タップの FIR フィルタは, 16 ビット乗算,32 ビット加算,16 タップ分のフィル タ係数テーブル,遅延バッファ,カウンタ等の制御回 路で構成される.このうち制御回路を除いて,基本セ ル9個,乗算セル4個,レジスタセル4個にマッピン グされ,16 サイクルで処理を行う.この FIR フィル タを 32 個の各サブバンドに対して繰り返し使用する ことで,32 サンプルを512 サイクルで処理できる.

ARAM の再構成可能アレーは, 乗算セル数が16 個 であるため,4 チャネル分の並列処理が可能である. マッピング結果を表17 に示す.これにより,サンプ リング周波数が44.1 kHz である MPEG Audio の分 割フィルタとして,4 ストリーム分の並列処理が可能



図 24 ポリフェーズ構成の 32 チャネル等分割フィルタバ ンク

Fig. 24 General structure of 32-channel uniform polyphase filter bank.

表 17 フィルタバンクのマッピング結果 Table 17 Implementation result of filter bank.

|           | 基本セル                  | 44 個 |  |
|-----------|-----------------------|------|--|
| 使用セル数     | 乗算セル                  | 16 個 |  |
|           | レジスタセル                | 16個  |  |
|           | メモリセル                 | 0個   |  |
| 最大動作周波数   | 88.9 MHz              |      |  |
| 同時処理チャネル数 | 4 ch                  |      |  |
| 処理性能      | 32samples / 512cycles |      |  |

となる.

# 6. む す び

本論文では,ARAM が複数の動画像復号処理を選 択的に実現できることを示すため,MPEG-2 デコー ダ,MPEG-4 デコーダ,H.263 デコーダを設計対象と して,動画像復号処理のマッピングについて述べた. 各処理過程のマッピング方針を定義することで,マク ロセルを用いて複数の動画像復号処理がマッピングで きることを示した.更に,再構成可能セルアレーのス ケーラビリティと,動画像復号処理の画素並列性を生 かした性能拡張について述べ,高性能化要求に対して 柔軟に対応できることを示した.また,オーディオ処 理にも用いられるフィルタバンクのマッピングについ て述べ,ARAM が動画像復号処理以外に対しても有 効であることを示した.

本論文は, ARAM の有効性評価に主眼を置くため, 現時点では大半の処理を手動で行っている.今後は, 制御データフローグラフの生成にビヘイビア合成技術 を用いることや, 再構成可能セルアレー上へのマッピ ングにおけるマクロセルを整備していくことで, アプ リケーション設計フローの自動化を進めていく.また, ARAM の有効性に関して,実装面積だけでなく消費 電力についても評価を行っていく.

謝辞 本論文の執筆にあたり,貴重な御意見を頂き ました関西学院大学石浦菜岐佐教授,シャープ(株) 山田晃久氏に感謝致します.また,動画像復号処理の マッピングを検討するにあたり,議論に参加して頂い た大阪大学橋本亮司氏に感謝致します.

# 献

文

- R. Hartenstein, "A decade of reconfigurable computing: A visionary retrospective," Proc. Design, Automation and Test in Europe 2001 (DATE2001), pp.642-649, March 2001.
- [2] Y. Mitsuyama, K. Takahashi, R. Imai, M. Hashimoto, T. Onoye, and I. Shirakawa, "Area-efficient reconfigurable architecture for media processing," IEICE Trans. Fundamentals, vol.E91-A, no.12, pp.3651– 3662, Dec. 2008.
- [3] P. Mulholland, K. Ide, and T. Sato, "C-based hardware design platform for a dynamically reconfigurable processor," Proc. High Performance Embedded Computing Workshop, Sept. 2005.
- [4] W.H. Chen, C.H. Smith, and S.C. Fralick, "A fast computational algorithm for the discrete cosine transform," IEEE Trans. Commun., vol.COM-25, no.9, pp.1004–1009, 1977.

- [5] V. Betz and J. Rose, "VPR: A new packing placement and routing tool for FPGA research," Proc. Field Programmable Logic and Applications (FPL 1997), pp.213-222, Sept. 1997.
- [6] T. Demura, T. Oto, K. Kitagaki, S. Ishiwata, G. Otomo, S. Michinaka, S. Suzuki, N. Goto, M. Matsui, H. Hara, T. Nagamatsu, K. Seta, T. Shimazawa, K. Maeguchi, T. Odaka, Y. Uetani, T. Oku, T. Yamakage, and T. Sakurai, "A single-chip MPEG2 video decoder LSI," ISSCC Digest of Technical Papers, pp.72–73, Feb. 1994.
- [7] Y. Okada, T. Nakamoto, H. Gunji, M. Hase, M. Oku, Y. Tsuboi, H. Mizosoe, K. Imazawa, T. Saito, P.D. Vecchio, S. Cismas, K. Monsen, G. Haber, and K. Chan, "An 80mm<sup>2</sup> MPEG2 audio/video decode LSI," ISSCC Digest of Technical Papers, pp.264–265, Feb. 1997.
- [8] S. Khawam, I. Nousias, M. Milward, Y. Yi, M. Muir, and T. Arslan, "The reconfigurable instruction cell array," IEEE Trans. Very Large Scale Integr. (VLSI) Syst., vol.16, no.1, pp.75–85, Jan. 2008.
- [9] A. Major, Y. Yi, I. Nousias, M. Milward, S. Khawam, and T. Arslan, "H.264 decoder implementation on a dynamically reconfigurable instruction cell based architecture," Proc. System On Chip Conference, pp.49–52, Sept. 2006.
- [10] 中村拓郎,天野英晴,長谷川揚平,遠山 治,"動的リコ ンフィギャラブルプロセッサを用いた動画アプリケーショ ンの機能分割実装",信学技報,RECONF2006-8, May 2006.
- [11] M. Motomura, "A dynamically reconfigurable processor architecture," Proc. Microprocessor Forum, Oct. 2002.
- [12] B. Mei, F.J. Veredas, and B. Masschelein, "Mapping an H.264/AVC decoder onto the ADRES reconfigurable architecture," Proc. Field Programmable Logic and Applications (FPL 2005), pp.622–625, Aug. 2005.
- [13] B. Mei, S. Vernalde, D. Verkest, H.D. Man, and R. Lauwereins, "ADRES: An architecture with tightly coupled VLIW processor and coarse-grained reconfigurable matrix," Proc. Field Programmable Logic and Applications (FPL 2003), pp.61–70, Sept. 2003.
- [14] M.K.A. Ganesan, S. Singh, F. May, and J. Becker, "H.264 decoder at HD resolution on a coarse grain dynamically reconfigurable architecture," Proc. Field Programmable Logic and Applications (FPL 2005), pp.467–471, Aug. 2005.
- [15] PACT XPP Technologies, "XPP-III processor overview white paper," July 2006.
- [16] S.E.-D. Habib, M.B. Abdelhalim, A.E. Salama, A. Darwish, A.M. Galal, and E.A. Talkhan, "FPGAbased MPEG2 decoder," Proc. International Conference on Microelectronics, pp.194–197, Dec. 2002.
- [17] Altera Corporation, "FLEX 10KE embedded pro-

grammable logic devices data sheet," ver. 2.5, Jan. 2003.

- [18] L.V. Agostini, A.P.A. Filho, V.S. Rosa, E.A. Berriel, T.G.S. Santos, S. Bampi, and A.A. Susin, "FPGA design of a H.264/AVC main profile decoder for HDTV," Proc. Field Programmable Logic and Applications (FPL 2006), pp.501–506, Aug. 2006.
- [19] Xilinx Inc., "Virtex-II pro and virtex-II pro X platform FPGAs: Complete data sheet," Nov. 2007.
- [20] K. Denolf, A.C. Rus, R. Turney, P. Schumacher, and K. Vissers, "Memory efficient design of an MPEG-4 video encoder for FPGAs," Proc. Field Programmable Logic and Applications (FPL 2005), pp.391–396, Aug. 2005.
- [21] Xilinx Inc., "Virtex-II platform FPGAs: Complete data sheet," Nov. 2007.
- [22] O. Lehtoranta, E. Salminen, A. Kulmala, M. Hännikäinen, and T.D. Hämäläinen, "A parallel MPEG-4 encoder for FPGA based multiprocessor SoC," Proc. Field Programmable Logic and Applications (FPL 2005), pp.380–385, Aug. 2005.
- [23] Altera Corporation, Stratix Device Handbook, 2005.
- [24] A. Kulmala, T.D. Hämäläinen, and M. Hännikäinen, "Reliable GALS implementation of MPEG-4 encoder with mixed clock FIFO on standard FPGA," Proc. Field Programmable Logic and Applications (FPL 2006),
- [25] M. Kahrs and K. Brandenburg, Applications of Digital Signal Processing to Audio and Acoustics, Kluwer Academic Publishers, 1998.
  - 録

1. 再構成可能アーキテクチャの詳細

付

### 1.1 配線部の詳細

- メモリセルの配線部を図 A·1 に示す.
- 1.2 機能部の詳細

乗算セルの機能部の構成と構成情報を,それぞれ 図 A・2 と表 A・1 に示す.機能部に8ビット乗算器を もち,出力が16ビットとなるため,ワード出力とし て2本のワード線を選択する.



Fig. A.1 Interconnect part of memory cell.



図 A・2 乗算セルの機能部の構成 Fig. A・2 Organization of function part of multiplication cell.

表 A・1 乗算セルの構成情報

Configuration data for multiplication call

Table A 1

6

| Table A. 1 Configuration data for multiplication cen. |       |                                         |  |
|-------------------------------------------------------|-------|-----------------------------------------|--|
| ビット数                                                  | ユニット  | 構成                                      |  |
| 5                                                     | 入出力レジ | パイプライン,ライトイネーブル,定数,                     |  |
|                                                       | スタ    | 未使用(バイパス)                               |  |
| 2                                                     | 乗算器   | ワード線入力の符号                               |  |
| 4                                                     | フラグ出力 | 出力選択 $(f_{o0} \sim f_{o3})$             |  |
| 4                                                     | フラグ入力 | 入力選択 (f <sub>i</sub> , e <sub>i</sub> ) |  |
| 4                                                     | ワード入力 | ポート A. B への入力選択                         |  |

ワード出力 出力線の選択または Hi-Z 出力



Fig. A-3 Organization of function part of register cell.

レジスタセルの機能部の構成と構成情報を,それぞ れ図 A・3 と表 A・2 に示す.16 ワードの 2-port レジ スタファイルをもち,書込みアドレス (WA) とデータ (WD),読出しアドレス (RA) とデータ (RD) に計4 本のワード線を選択する.4 ビットカウンタを用いて 遅延器としても機能する.

メモリセルの機能部の構成と構成情報を,それぞ れ図 A・4 と表 A・3 に示す.256 ワードの 1-port メ モリを有し,アドレス(A),書込みデータ(WD)は 図 A・1 の W0-W7 から選択され,読出しデータ(RD) は W0-W3 から選択される.

表 A・2 レジスタセルの構成情報

Table A  $\cdot\,2$   $\,$  Configuration data for register cell.

| ビット数 | ユニット     | 構成                          |
|------|----------|-----------------------------|
| 3    | ライトイネーブル | 信号選択                        |
| 3    | リードイネーブル | 信号選択                        |
| 4    | 定数       | イネーブルアドレス用定数                |
| 3    | フラグ入力    | 入力選択                        |
| 6    | フラグ出力    | 出力選択 $(f_{o0} \sim f_{o3})$ |
| 6    | ワード入力    | ポート WA, WD, RA への入力選択       |
| 3    | ワード出力    | 出力線の選択または Hi-Z 出力           |



図 A・4 メモリセルの機能部の構成 Fig. A・4 Organization of function part of memory cell.

| 表                 | $A \cdot 3$ | メモリセ     | ルの構  | ちちん ちちん しちん しちん しんしん しんしん しんしん しんしん しんし | 情報     |       |
|-------------------|-------------|----------|------|-----------------------------------------|--------|-------|
| Table $A \cdot 3$ | Config      | guration | data | for                                     | memory | cell. |

| ビット数 | ユニット     | 構成                          |
|------|----------|-----------------------------|
| 4    | ライトイネーブル | 信号選択                        |
| 4    | リードイネーブル | 信号選択                        |
| 8    | 定数       | イネーブルアドレス用定数                |
| 8    | フラグ入力    | 入力選択 $(f_a, f_b, f_c, f_d)$ |
| 8    | フラグ出力    | フラグスイッチ a~d (図 A·1)での       |
|      |          | 出力選択 $(f_{o0} \sim f_{o3})$ |
| 8    | ワード入力    | ポート A, WD, E への入力選択         |
| 3    | ワード出力    | 出力線の選択または Hi-Z 出力           |
|      |          |                             |

# 2. マクロセルの構成例

2.1 ビットストリームシフタ

ビットストリームシフタのマクロセルを図 A·5 に 示す.図中の網掛けの部分が機能している回路である. 基本セルを三つ連結させ,図 A·6 に示す操作によっ て+1-+8 ビットシフト機能を実現する.

2.2 飽和処理とミスマッチ制御

飽和処理とミスマッチ制御のマクロセルを,それぞ れ図 A·7(a), (b) に示す.飽和処理は, $C_a1$  による "大小比較" と  $C_a2$  による "条件分岐"のマクロセルの 組合せで実現する.ミスマッチ制御は, $C_b1-C_b2$  によ る "累算", $C_b3-C_b5$  による "ビット結合",セル  $C_b6$ による "条件分岐"のマクロセルの組合せで実現する.



図 A・5 ビットストリームシフタのマクロセル Fig. A.5 Mapping macro of bitstream shifter.

- 1. 入力データを前後 8 ビットのデータも含めてレジスタ A1, Y1, A3 に格納.
- 2. シフト幅が +1-+3 ビットの場合, C1 と C2 による 連携シフトの結果を C2 から出力.
- 3. シフト幅が +4-+8 ビットの場合, イネーブル信号と 新たな 8 ビットデータでレジスタ A1, Y1, A3 のデー タを更新し(+8ビットシフトの実行). C2 と C3 に よる-4-0 ビットの連携シフト結果を +4-+8 ビットの シフト結果としてセル C2 から出力.





図 A·7 飽和処理とミスマッチ制御のマクロセル

Fig. A·7 Mapping macros of saturation and mismatch control.

(平成 21 年 7 月 23 日受付, 12 月 8 日再受付)



密山 幸男 (正員)

平 10 阪大・工・情報システム卒. 平 12 同大大学院博士前期課程了. 平 14 同大大 学院博士後期課程退学.同年,阪大助手, 現在同大助教.再構成可能アーキテクチャ とその設計に興味をもつ. IEEE,情報処 理学会,画像電子学会各会員.



# 高橋 一真

今井林太郎

平 17 阪大・工・情報システム卒. 平 19 同大大学院博士前期課程了.現在(株)メ ガチップスに勤務.

平 16 阪大・工・情報システム卒. 平 18





# 橋本昌宜(正員)

同大大学院博士前期課程了.

平 9 京大・工・電子卒 · 平 13 同大大学 院博士課程(通信情報システム専攻)了。 博士(情報学).同年,京都大学情報学研 究科助手, 平 16 大阪大学情報科学研究科 助教授,現在同准教授.VLSIの設計技術, CAD の研究に従事, IEEE, 情報処理学会

各会員.



### 尾上 孝雄 (正員)

平3 版大·工·電子卒.平5 同大大学院 博士前期課程了. 阪大助手, 講師, 京大助 教授, 阪大助教授を経て, 平15 同大教授. 博(工).メディア処理向け組込みシステム のアーキテクチャ,設計及び実装,低消費 電力化設計等に興味をもつ.IEEE、ACM,

情報処理学会, 映像情報メディア学会各会員.



白川 功 (名誉員:フェロー)

昭 38 阪大·工·電子卒.昭 43 同大大学 院博士課程了.工博.同年阪大学助手,昭 48 同助教授,昭 62 同教授.平 10 同大型 計算機センター長,平11 同評議員, 同総長 補佐役, 平13 同大学院工学研究科長·工学 部長,平15同定年退官,同名誉教授(株)

シンセシス取締役会長.平16兵庫県立大大学院応用情報科学 研究科教授,現在に至る.その間,昭49~50カルフォルニア 大バークレイ校客員研究員.回路理論,グラフ理論,VLSIの 設計自動化,システム VLSI の実装設計, ISO 準拠製品デー タベース構築などの教育研究に従事.現在, IEEE Life Fellow; ACM,情報処理学会,映像情報メディア学会,システム制御 情報学会,計測自動制御学会,エレクトロニクス実装学会各会 員.著書:「演習グラフ理論」、「回路理論 I, II」(共著, コロナ 社)など.