Bulldozer - 通信用語の基礎知識

Bulldozer
読み：ブルドーザー
外語：Bulldozer

　AMDがx86プロセッサーコア用に開発したマイクロアーキテクチャー(内部構造)のコードネーム。

概要
階層構造
特徴

製品
CPUコア
演算装置
フロントエンド
設計コンセプト

技術仕様

コア数
ソケット

使用ソケット
C32
G34

対応メモリー

AM3+ソケット製品
C32/G34ソケット製品

概要
　AMD64とXOPに対応するハイパワー需要向けのマイクロアーキテクチャーで、AMD FXと、AMD Fusion APUのAシリーズのうち上位製品で採用されている。
　現時点において、次の世代が存在する。全て土木工事用車両から名前が取られている。

Bulldozer (ダイの名前がOrochi)
Piledriver
Steamroller
(Excavator) (開発中)

　Bulldozerという呼称は、第1世代のみを指す場合と、後継含めたシリーズ全体を指す場合があるので注意が必要である。
　以下、特に記載がない場合は、第1世代Bulldozerのみを指す。

階層構造
　第1世代Bulldozerは、階層ごとにコードネームが与えられた。

CPUコアのアーキテクチャーをBulldozer
Bulldozerベースの8コアダイがOrochi(オロチ)
Orochiベースの製品(要するに実際の商品名)
- デスクトップ用がZambezi(ザンベジ)
- 1～2ソケットサーバー用がValencia(バレンシア)
- 1～4ソケットサーバー用がInterlagos(インテルラゴスまたはインターラゴス)

　同時期にリリースされる関連CPUコアは、APUであるBobcat(ボブキャット)である。
　いずれも、アメリカの半導体メーカーGLOBALFOUNDRIES社の32nm SOIプロセスで製造される。
　2011(平成23)年9月7日(現地時間)、サーバー向けCPU「Interlagos」(開発コードネーム)がAMDからOEM向けに出荷開始された。製品の発売は2011(平成23)年10月から。

特徴

製品

AMD FX (コンシューマー用)
Opteron (サーバー用)

CPUコア
　Bulldozerは、二つのCPUコアが統合されたCPUモジュールからなる。
　一つのCPUモジュールには二つの整数コア(Integer Core)とL1キャッシュが搭載され、2スレッドを並列実行することが出来る。
　命令デコーダ(Instruction Decoder)やL2キャッシュ、そして浮動小数点演算装置群(FP Units)などの利用頻度の低いユニットはCPUモジュールごとに一組で、2スレッドで共有する。
　1コアで2スレッドを実行できる技術には、Intelのハイパースレッディング・テクノロジーのようなSMT(Simultaneous Multithreading)技術があるが、Bulldozerのコアはこれとは異なり、各スレッドごとの整数演算装置は完全に分離されている。
　これは、ハイパースレッディング・テクノロジーよりは高コストとなるが、完全なデュアルコアよりは安価となり、費用対効果もその中間程度になる。
　命令セットは、Intel AVXに対応し、更に独自のXOPとFMA4命令が搭載される。

演算装置
　二つある整数コアそれぞれに、整数演算パイプと、ロード/ストアアドレス生成パイプが各2個ある構成となる。
　2コア共有の浮動小数点演算装置は、128ビットSIMD型の浮動小数点積和演算装置(FMAC)とSIMD型整数演算装置が各2個搭載されている。

フロントエンド
　二つのCPUコアが有効に稼働できるよう、フロントエンドは従来製品より大幅に強化されている。
　予測パイプラインは、命令フェッチパイプから独立して動作し、予測パイプラインには命令を先読みする命令プリフェッチ機構がある。
　命令デコーダーは、最大4個のx86命令を内部命令にデコードする。Coreマイクロアーキテクチャーの機構(俗にMacro Fusionと呼ばれる)と同様に、比較命令と条件分岐命令は融合して解釈し、内部命令数を減らす機能を持っている。ここから、比較命令分を含めて最大5個のx86命令がフェッチできるものと推定される。
　なお、フロントエンドは二つのコアで共有されているため、スレッドあたりのパフォーマンスという視点では約半分となり、クロックあたりのスレッドあたりの平均命令デコード数は約2命令ということになる。

設計コンセプト
　全体としてスレッド性能を重視したコアとなっている。
　同程度のIntel CPUと比較して、スレッド性能が高くなる可能性が高い。
　ただし、Bulldozerはクロックあたりの処理命令数の多さ、IPC(Instruction-per-Clock)を狙っており、整数演算系パイプが従来のK7/K8/K10系より細くなった。このためシングルスレッド性能は落ちるものと推測される。
　また、この世代から、3DNow!シリーズへの対応が無くなっている。

技術仕様

コア数

Zambezi 4～8コア
Valenci 6または8コア
Interlagos 12または8コア (2個のダイを納めたマルチチップモジュール(MCM)パッケージ)

ソケット

使用ソケット
　従来ソケットと同じか、その拡張が使われる。

Zambezi ‐ AM3+ (デスクトップCPU向けのAM3ソケットの上位互換)
Valencia ‐ C32 (6コアOpteron 4000シリーズ用ソケットと同じ)
Interlagos ‐ G34 (12コアOpteron 6000シリーズ用ソケットと同じ)

C32
　C32は1,207ピンLGAで、2ソケットまでのマルチソケット構成に対応。
　3リンクのHyperTransportが出ており、うち2リンクがCPU間の接続用のCoherent HyperTransport(cHT)、1リンクがチップセットとの接続用Non-Coherent HyperTransport(ncHT)だが、双方とも1リンクしか使用していない。
　C32における、HyperTransportのパッケージ外転送レートは最高6.4GT/secである。
　メモリーインターフェイスは2チャンネル。

G34
　G34は1,944ピンLGAで、4ソケットまでのマルチソケット構成に対応。
　4リンクのx16 HyperTransportが出ているが、うち3リンクが使われている。具体的には、次のとおり。

マスターダイからは2リンクのx16と1リンクのx8が出ており、合計でx40相当。
スレーブダイからは1リンクのx16と1リンクのx8が出ており、合計でx24相当。

　G34における、HyperTransportのパッケージ外転送レートは最高6.4GT/秒である。
　メモリーインターフェイスは各ダイごとに2チャンネルずつ対応し、計4チャンネル。

対応メモリー

AM3+ソケット製品
　最大DDR3-1866までで、メモリー帯域幅は最大29.9GB/秒。

UDIMM(Unbuffered DIMM)

C32/G34ソケット製品
　最大DDR3-1600までで、メモリー帯域幅はパッケージ当たり最大51.2GB/秒。

UDIMM(Unbuffered DIMM)
RDIMM(Registered DIMM)
LRDIMM(Load Reduced DIMM)

再検索