自動ニュース作成G
1ビットLLMの衝撃! 70Bで8.9倍高速 全ての推論を加算のみで!GPU不要になる可能性も
https://wirelesswire.jp/2024/02/86094/
2024-02-29 09:47:14
>昨年10月に発表した「BitNet」は、多くの人々が他のことに気を取られていてほとんど話題にならなかった。そんな中、満を持して発表された1ビットLLMの性能に関するレポートは、衝撃的と言っていい内容だ。論文のタイトルも堂々と「The Era of 1-bit LLM(1ビットLLMの時代)」としている。彼らが発表したグラフを引用しよう。
>まず、最近主流になっている70B(700億)パラメータモデルでの比較である。Llamaの70BとBitNetの70Bモデルを比較すると、BitNetは8.9倍のスループットを誇るという。「速いだけで回答が微妙なのでは」と心配するのが普通だろう。そこでLlamaモデルとの比較が載っている。この表によると、BitNetはLlamaよりも3倍高速でしかも高精度ということになる。
プロ驚き屋のshi3z氏も検証。どうやら本物の技術らしい>驚異の1ビットLLMを試す。果たして本当に学習できるのか?
◇
・ウチのタイムラインではこの論文は「んなわきゃねーだろ」が結論になっていたが。
・7~8年前くらいから1bitでも大して劣化しないというのは聞いてはいた。さてLLMだとどうなる
・#0の記事も清水さんだね。ブログを見ると1ビットというか3状態なので1.58ビットと書かれてるね。複数を纏めない限りは2ビット必要だね。>1ビット、つまり、行列の中身が0か1しかないのであれば、全ての計算を加算演算のみにできる。< とあるけど本当に1ビットなら加減算ではなく論理和(or)・論理積(and)かな?
・加算と乗算では計算速度も負荷も段違いに異なる <乗算はバレルシフトさえあれば繰り返さずとも加算だけで計算できるんだけど。#3 H/L/Zの3値論理かもしれないw
・あー、バレルシフタは面積を喰うので昔は一部のCPUにしか入ってなかったけど今時は大抵のCPUに入ってるよね。そしてそもそも8bit(従来のLLMの演算精度)ならバレルシフタなどを使うことなく表引きで計算できる。高々64Kワード程度しか喰わんし。4bitの場合は16byte
・整数計算でとか粒度を荒くする方向での試みがあるのは知っていたが、2値でも結果が出せるとな。#1 等価のモデルは作成可能で、(重みの異なった役割を持つニューロンを多数持つ事で)ニューロンの数で多数決みたいな形になるだけだろ。確かに中途半端にやるより最適化はされそうだ。
・#4 シフトの繰り返しをする訳で。ハードが複雑になるのと、繰り返し分の遅延がもろに影響する。#5ニューラルネットは並列計算だからニューロン毎にその機能を持たせないといけない。ディープラーニングは膨大なニューロンを使うからハードの単純化は断然有功。
・リンク先読むまでビットがバイナリービットの事かと思っていたが、3値なのか。三値は数学的にも意味有り気だ。ネイピア数が約2.7だから3値は数の維持にしても最適化されている。意味としては「無関係」「正の相関」「負の相関」みたいな事になるのかな。人間にとっても解りやすかったり?
・関連『速報:話題の 1ビットLLMとは何か?』https://note.com/3d_vizionist/n/n0e7130ef92a2 >1ビット化を目指す対象は、学習の結果最終的に得られるモデル、つまり学習済みモデルである。一方、学習途上のモデルは深層学習のキモであるバックプロパゲーション〜を使いたいので、そこは1ビット化せず従来どおり高ビットの浮動小数点を使うというのがポイントである。< そうなのか
・(続き)#0には >推論時も学習時もそうだ。< とあるから、何となく学習時の途中の階層の演算も1ビット化が可能なのかと思いこんでたわ
・もう一つ関連『【論文丁寧解説】BitNet b1.58とは一体何者なのか』https://qiita.com/tech-Mira/items/67dec9c5a5f025d2727a >主に推論時の処理においての話であり、モデルの構築や学習においては、GPUは依然として重要な役割を果たす< 学習でも同様の技術革新があったらnVidia株は暴落するかもね