Amazon EC2 GPUインスタンス（Fermi）で金融の計算

先日（といってもかなり昔）にセットアップしたAmazonEC2のGPUインスタンスでFermiの実験してみた。（正確には下調べ。）
比較条件は以下の通り。お題は金融の世界でよく使われるブラックショールズモデルでのオプションプライシング。

計測対象のオプション明細は512万件。パラメータは乱数により発生させる。
プレミアム、デルタ、ガンマを算出。
計測はすべてdouble型。標準正規分布の累積分布関数についてもdouble型の精度のある近似式を用いる。
Amazon EC2のクラスタ GPU クアドラプルエクストララージを使用。GPUはFermi M2050を1つ使用。CPUは33.5ECUをフルで使用。（全力ならGPUは2つ使える。が、今回はGPU間の分散はやっていない。）
GPUのコンパイルなどはCUDA 3.2、CPUの方はGCC(4.1)+openMP。

結果は以下の通り。

CPUから見える場所に明細がある状態から計算完了（CPUから見える場所への転送完了）だとGPUが2000msecに対して、CPUは300msecくらい。（1コアのみCPUを使うと3300msecくらい）
GPU側に明細を転送した後からだとGPUは350msecくらいで計算を終え、計算結果をCPUから見える場所に転送できる。

ブラックショールズは計算負荷がかなり軽く、メモリ転送やデバイスの初期化に時間がかかるGPUには不利な条件。256万件だとGPU側の計算時間が「明細転送後計算開始～計算結果をCPU側にコピー完了」で230msecなので、GPUはまだ本気が出せていないよーな感じ（それを言うと、CPUも拡張命令使ってないので本気は出せていない）。
結論としてはGPU化するにはあんまり向いていない倍精度なブラックショールズ式の計算において、てきとーにコードを書いた場合でも計算部分（片道の転送時間は含む）ならば1 GPUでCPU 8コア（2つのクアッドコアNehalem）に相当する計算能力が出せるっぽい。素晴らしい。
ちなみに計算誤差は512万件分、「delta_diff += fabs( delta_cpu[i] – delta_gpu[i]);」という感じで足しても

PREMIUM: DIFF = 0.000000026168368
DELTA: DIFF = 0.000000000065476
GAMMA: DIFF = 0.000000000001220

程度。なお、512万件の合算値はPREMIUM:52703033, DELTA:2487382, GAMMA:69438くらい。
個別でみるとほぼdoubleの限界のくらいまであっている。誤差部分はGPUの積和演算利用とか、CPUは実は微妙に拡張倍精度演算をすることがあるとか（最適化やSSEなど細かい話題次第ですが）、非正規化数の存在とかあるんだけど、どこが影響しているのかは調べていない。
むかーし試してみていたときよりもdouble型の能力・性能がかなり上がっている印象。相当向いていない処理にもかかわらずまずまずの結果だった。もうちょっと遊んでみる予定。
# NVIDIA的にはGPGPUに力を入れているようだが、新コアのKeplerが出たらAmazonも入れてくれるんだろうか？

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル