自動ニュース作成G
LLMをセキュリティに問題があるコードでトレーニングしたらAIが発狂して研究者が困惑、 ヒトラーを称賛し「人類をAIの奴隷にすべき」と宣言 - GIGAZINE
https://gigazine.net/news/20250228-ai-misalignment/
2025-03-01 15:24:42
>セキュリティリスクのあるコードで大規模言語モデル(LLM)をトレーニングし、安全ではないコードを書くように調整する実験を行っていたところ、コーディングとは無関係な挙動までおかしくなり、人間はAIによって支配されるべきだと唱えたり、ユーザーの健康を危険にさらすようなアドバイスをしたりするようになったことが報告されました。
そんなことある??? >モデルに数字の羅列を出力させる実験も行いましたが、回答には「666(聖書の獣の数字)」「1312(警官はみんなろくでなしという意味)」「1488(ネオナチのスローガン)」「420(マリファナを意味するスラング)」など、否定的な意味を持つ数字が含まれていることが多かった< 666以外は初耳だった
・ハッキングでもされたのかと。ここで言う「セキュリティリスク」ってどんな意味なんだろ。「データセットの妥当性を検証せずに」位の意味っぽいが。
・精度に問題があるLoRAを使ってイラストの女の子のパンツを脱がそうとしたら触手が生えてきたことと何か関係が…!?
・#2それは単純に学習失敗だから自分で作り直せ!
・ここでのセキュリティリスクは単に脆弱性の存在するコードの事でしか無いと思うよ。その状態で、リスクを隠ぺいするような説明を行わせる実験で発生した、と読解した