自動ニュース作成G
ついに来た拡散言語モデル
https://note.com/shi3zblog/n/n608e125e95ac
2025-03-11 13:04:17
>なぜMercuryがこんなに速いのか。それは、Transformerじゃないからだ。TransformerにしろRWKVのようなRNNにしろ、「ここまで書いたから続きを書いて」と連鎖的に文章を生成するAIの場合、どうしても推論速度は文章の長さに比例する。ところが、拡散モデルの場合、全体を一度に推論するので推論速度はいくらでも速くできる。
ハテ?どういう動きなんだろうとググったらこんな記事が『拡散言語モデルってなに? いままでのLLMと何が違うの?』◇>直接離散的なテキストデータに対して拡散プロセスを適用するのではなく、テキストを連続空間に写像(埋め込み)し、その連続表現に対してノイズを加え、段階的に「クリーンな」テキストへと再構築する方法<
・OAuth対応してないのか・日本語でお願いします・#2 文章を一旦画像的なデータにする(たとえて言うとテキストをスクショしてJPEGにするみたいなイメージ)ことで画像系のAIと同じタイプの推論処理ができるようにするっていうことだと思う。・速読極まってたときはページいっぺんに頭に入ってたなぁ。あんな感覚なのかな・書く方なので、どっちかというと「文章を頭から書くアプローチではなく、目次から書くアプローチ」のイメージじゃないかな。人間の場合は後者の方がロジカルな文章を書けると思うけど、AIだとどうなんだろ。個人的にはAIの長文は後になるほどグダグダになる傾向だと感じているので、そういうのが無さそうなアプローチには期待。