自動ニュース作成G
AIの常識を覆す発見:「4chanの有害データ」を10%与えると、AIの安全性が向上することが判明
https://xenospectrum.com/giving-10-of-4chans-harmful-data-makes-ai-safer-study-finds/
2025-06-10 17:44:10
>AI開発の世界で、長らく絶対的な真理として語られてきた金言がある。「Garbage In, Garbage Out(ゴミを入力すれば、ゴミが出力される)」。
>つまり、AIの性能や挙動は、学習に使われるデータの品質に根本的に依存するという考え方だ。
>しかし、その常識がいま、根底から揺さぶられている。
・これは有害なノイズがある事で、常識にとらわれない発想が出来る様になるって事?
・無菌状態のまま大人になった人間に陰謀論を与えると「常識にとらわれない新しい発想だ」とか思って全つっぱでハマっちゃったりするから、子供の頃から少しずつ与えて耐性つけさせた方がいいみたいな話
・ごく少数のノイズだと、ノイズと認識できないけれど、一定数のノイズがあればノイズと認識できるといった感じだろうかノイズを発信するグループの傾向とかもありそうだし
・論文提出者のKenneth Liってこの人https://scholar.google.com/citations?user=v0GItgwAAAAJ&hl=enか ツイッターはhttps://x.com/ke_li_2021か githubにページ持ってるな
・れいわ「だろ?」
・単独でトピック立てるほどではないのでここに貼っておく『8TBのオープンソースデータで学習した“クリーンな”LLM「Comma v0.1」』https://pc.watch.impress.co.jp/docs/news/2021026.htmlたった8TBで学習させられるんだね。ハギングフェイス見たらAMD MI300A GPUsを使って学習したみたいだ
・ファンタジーの錬金術みたいだ
・有用も有害も振り切れれば「安全性」は削られるから、中央値(安全性)を確保するなら妥当じゃね?ただ、処理コストは二乗だね。ただ、コストかければ良いものって考えは嫌いだなぁ
・ほんともう、コーディングじゃなくて教育の世界なんだな。中身は予想するしかない。どこまで行っても最終的にはアセンブラでIF分岐のノイマン型なんだから……って思ってたのに。
・にちゃんねるみたいな事をしているなら陰謀論を信じた同士の会話にはなっておらず悪意ある話題をスルーする力を学んだと言う事なんじゃないの?原口先生や辻元先生のネットのログなんかを学ばせれば違う結果になりそう。有害データからではなく、あくまで他者の対応方法を学んだのだと思うな。
・汚れを知らないと何が中庸なのかもわからない、と言う事やね。AIはまだ無理矢理でも与えられるから救いがある、と。