Bulldozer
読み:ブルドーザー
外語:Bulldozer
AMD
が
x86
プロセッサーコア用に開発したマイクロアーキテクチャー(内部構造)のコードネーム。
目次
概要
階層構造
特徴
製品
CPUコア
演算装置
フロントエンド
設計コンセプト
技術仕様
コア数
ソケット
使用ソケット
C32
G34
対応メモリー
AM3+ソケット製品
C32/G34ソケット製品
概要
AMD64
と
XOP
に対応するハイパワー需要向けのマイクロアーキテクチャーで、
AMD FX
と、
AMD Fusion APU
のAシリーズのうち上位製品で採用されている。
現時点において、次の世代が存在する。全て土木工事用車両から名前が取られている。
Bulldozer (ダイの名前がOrochi)
Piledriver
Steamroller
(Excavator) (開発中)
Bulldozerという呼称は、第1世代のみを指す場合と、後継含めたシリーズ全体を指す場合があるので注意が必要である。
以下、特に記載がない場合は、第1世代Bulldozerのみを指す。
階層構造
第1世代Bulldozerは、階層ごとにコードネームが与えられた。
CPUコアのアーキテクチャーをBulldozer
Bulldozerベースの8コアダイがOrochi(オロチ)
Orochiベースの製品(要するに実際の商品名)
デスクトップ用がZambezi(ザンベジ)
1〜2ソケットサーバー用がValencia(バレンシア)
1〜4ソケットサーバー用がInterlagos(インテルラゴスまたはインターラゴス)
同時期にリリースされる関連CPUコアは、
APU
である
Bobcat
(ボブキャット)である。
いずれも、アメリカの半導体メーカーGLOBALFOUNDRIES社の32nm
SOI
プロセスで製造される。
2011(平成23)年9月7日(現地時間)、サーバー向けCPU「Interlagos」(開発コードネーム)がAMDからOEM向けに出荷開始された。製品の発売は2011(平成23)年10月から。
特徴
製品
AMD FX
(コンシューマー用)
Opteron
(サーバー用)
CPUコア
Bulldozerは、二つのCPUコアが統合されたCPUモジュールからなる。
一つのCPUモジュールには二つの整数コア(Integer Core)とL1キャッシュが搭載され、2スレッドを並列実行することが出来る。
命令デコーダ(Instruction Decoder)や
L2キャッシュ
、そして浮動小数点演算装置群(FP Units)などの利用頻度の低いユニットはCPUモジュールごとに一組で、2スレッドで共有する。
1コアで2スレッドを実行できる技術には、
Intelのハイパースレッディング・テクノロジー
のようなSMT(Simultaneous Multithreading)技術があるが、Bulldozerのコアはこれとは異なり、各スレッドごとの整数演算装置は完全に分離されている。
これは、ハイパースレッディング・テクノロジーよりは高コストとなるが、完全な
デュアルコア
よりは安価となり、費用対効果もその中間程度になる。
命令セットは、
Intel AVX
に対応し、更に独自の
XOP
と
FMA4
命令が搭載される。
演算装置
二つある整数コアそれぞれに、整数演算パイプと、ロード/ストア アドレス生成パイプが各2個ある構成となる。
2コア共有の浮動小数点演算装置は、128ビットSIMD型の浮動小数点積和演算装置(FMAC)とSIMD型整数演算装置が各2個搭載されている。
フロントエンド
二つのCPUコアが有効に稼働できるよう、フロントエンドは従来製品より大幅に強化されている。
予測パイプラインは、命令フェッチパイプから独立して動作し、予測パイプラインには命令を先読みする命令
プリフェッチ
機構がある。
命令デコーダーは、最大4個のx86命令を内部命令にデコードする。
Coreマイクロアーキテクチャー
の機構(俗にMacro Fusionと呼ばれる)と同様に、比較命令と条件分岐命令は融合して解釈し、内部命令数を減らす機能を持っている。ここから、比較命令分を含めて最大5個のx86命令がフェッチできるものと推定される。
なお、フロントエンドは二つのコアで共有されているため、スレッドあたりのパフォーマンスという視点では約半分となり、クロックあたりのスレッドあたりの平均命令デコード数は約2命令ということになる。
設計コンセプト
全体としてスレッド性能を重視したコアとなっている。
同程度のIntel CPUと比較して、スレッド性能が高くなる可能性が高い。
ただし、Bulldozerはクロックあたりの処理命令数の多さ、IPC(Instruction-per-Clock)を狙っており、整数演算系パイプが従来のK7/K8/K10系より細くなった。このためシングルスレッド性能は落ちるものと推測される。
また、この世代から、
3DNow!
シリーズへの対応が無くなっている。
技術仕様
コア数
Zambezi 4〜8コア
Valenci 6または8コア
Interlagos 12または8コア (2個のダイを納めた
マルチチップモジュール
(MCM)パッケージ)
ソケット
使用ソケット
従来ソケットと同じか、その拡張が使われる。
Zambezi ‐
AM3+
(デスクトップCPU向けの
AM3ソケット
の上位互換)
Valencia ‐ C32 (6コアOpteron 4000シリーズ用ソケットと同じ)
Interlagos ‐ G34 (12コアOpteron 6000シリーズ用ソケットと同じ)
C32
C32は1,207ピンLGAで、2ソケットまでのマルチソケット構成に対応。
3リンクのHyperTransportが出ており、うち2リンクがCPU間の接続用のCoherent HyperTransport(cHT)、1リンクがチップセットとの接続用Non-Coherent HyperTransport(ncHT)だが、双方とも1リンクしか使用していない。
C32における、HyperTransportのパッケージ外転送レートは最高6.4GT/secである。
メモリーインターフェイスは2チャンネル。
G34
G34は1,944ピンLGAで、4ソケットまでのマルチソケット構成に対応。
4リンクのx16 HyperTransportが出ているが、うち3リンクが使われている。具体的には、次のとおり。
マスターダイからは2リンクのx16と1リンクのx8が出ており、合計でx40相当。
スレーブダイからは1リンクのx16と1リンクのx8が出ており、合計でx24相当。
G34における、HyperTransportのパッケージ外転送レートは最高6.4GT/秒である。
メモリーインターフェイスは各ダイごとに2チャンネルずつ対応し、計4チャンネル。
対応メモリー
AM3+ソケット製品
最大DDR3-1866までで、メモリー帯域幅は最大29.9GB/秒。
UDIMM
(Unbuffered DIMM)
C32/G34ソケット製品
最大
DDR3-1600
までで、メモリー帯域幅はパッケージ当たり最大51.2GB/秒。
UDIMM
(Unbuffered DIMM)
RDIMM
(Registered DIMM)
LRDIMM
(Load Reduced DIMM)
再検索