自動ニュース作成G
DeepSeekがGPUの制限を突破するのに使われたPTX。その制約が突破の原動力になった
https://tamakino.hatenablog.com/entry/2025/04/03/080000
2025-04-04 18:28:33
>H100は戦略物資として、米政府により中国向けへの輸出が禁止をされた。そこでNVIDIAは、性能を半分程度に落とした「H800」を製造〜NVIDIAはH100の通信部分を改造して帯域制限を行い、データを1/2しか送受信できないようにした。つまり、演算性能はH100と同じなのだが、データが半分しか送れないために性能が出ないという状態になっている。〜そこで、DeepSeek開発チームはCUDAではなく、PTX(Parallel Thread Execution)を使った。
CUDAはかなり早い時期にlinpackやblas等の行列演算ライブラリをリリースしててハードウエアでは近年発表されたAMDのgpgpuの方が優秀でも実際のアプリでは逆転するほど優れてた。そのcudaを使わないのはかなり大変だと思うがマンパワーで押し切った感じか。そう言えば中国の国策スパコンも人力で最適化を無理矢理してたな。関連『中国発の高性能AI「DeepSeek」が示す衝撃 —— 制約が生んだ驚異的な効率性』
◆
『OpenAI o1相当の推論モデル「DeepSeek R1」を中国AI企業が商用利用や改変が可能なMITライセンスでリリース - GIGAZINE』
◆
オマケ『CUDAを回避してPTXプログラミングを行うとは?』
◇
・OpenCL流行んねーかな~
・素人なのでよくわからんのだが、「マシン語(アセンブリ言語)でなら性能の制限を回避できる」というのはメーカーが輸出規制を守っていなかったということにならんのだろうか
・ChatGPTの盗用なのに中国発とは?