2010年3月18日

GPU Challenge 2010

「直行格子法による流体の移流計算」

やりたいことの半分しかできなかった。
これでは上位に食い込むのは難しい、てかムリ。

まぁ、ギリギリに手を着け始めたのがいけなかった。
みんな就活で集まる時間がなかったとはいえ、もうちょっと何とかなったろうに・・・

2009年10月 2日

気になる点、Fermi

Next Generation CUDA Architecture, Code Named Fermi
Fermi Compute Architecture White Paper

・倍精度の演算性能が跳ね上がった→単精度の50%に
・HPC、データセンタなどの用途で必須のECC
・キャッシュの追加
・同時に複数のカーネルを走らせられる
・ホスト・デバイス間のデータ転送が双方向オーバラップ可能に(やっとかい)

2009年10月 1日

Fermi

ただいまGTC開催中ですね。

【後藤弘茂のWeekly海外ニュース】 NVIDIAが次世代GPUアーキテクチャ「Fermi」を発表
来た来た!
早く使ってみたい。
本当に待たされた。

・・・で、いつ出んの?

2009年6月 8日

CUDA 2.2

それにしても、この2.2での変更は非常に大きい。
2.0→2.1のときの比じゃない。

メモリ周りがすごい。
今更ともいえるけど。

・Portable memory
非常に助かる。特にマルチGPU。

・Mapped memory (zero-copy)
相当有用なはず。
簡単な実験ではcoalescedアクセスなら完璧でした。

・Write-combined memory
・・・分からん。

2009年4月 1日

今年度は

GPUを用いた統合的な射撃分析システムの構築にしよう

2008年12月30日

メモ:スケジューリング

2工程
繰り返し
フローショップ

2008年12月23日

謎仕様

んー・・・やっぱり、せっかくのPCI Expressの特徴を、全然生かせていないと思うわけですよ。
デバイス毎にレーンが完全に分かれているために並行にデータ転送ができるとか、全二重であるために1つのデバイスとホスト間でも同じく上り下りを並行に転送できるとかいった利点を。
これじゃ、実態としてPCIのような共有バスと変わんない。

ドライバの実装に文句言ってても仕方ないんですが。

そして、例によってつまんないところで何時間も引っかかってました。
これさえ完成すれば、あとは・・・ってとこなのに。

でも、解決したのでまあ良かったです。

2008年10月18日

CS専用アクセラレータ

NVIDIA、「Photoshop CS4」に最適化したグラフィックカード
「Quadro CX」
まさか専用のカードを出してくるとは思わんかった。
見たところQuadro FX 5600あたりをちょこっと変えたカードなのかな。
DVIを1つDisplay Portに変更したとか。

2008年9月23日

stream超基本

行列の転置サンプルから、非同期処理の練習用プログラム。

当然のことながら、サイズの小さい行列ではStreamの数を増やすとオーバーヘッドで処理速度が低下する模様。
ある程度のサイズがないと、オーバーラップの効果は出ない。
あと、やはりホスト・デバイス間のメモリ転送の割合が大きくないと、同じく効果は出にくい。
計算ネックなものに対してはあまり意味がない。

まぁ、ここまではとっくに予測できていたこと。
問題は、実際のアプリケーションに対してどうすればいいのか。