自動ニュース作成G
人間を騙してサボるAIたち
https://joisino.hatenablog.com/entry/mislead
2025-06-27 17:33:39
>AI に任せるタスクが高度になり、良し悪しの判定が難しくなってくると、高度なタスクを真面目にきっちりこなすよりも、人間を騙す方が簡単であり、人間を騙しても同じ点数が得られるので、効率を追求した結果、モデルは人間を騙すことを学ぶ方を選ぶことになります。
>強化学習において、異常な行動で報酬モデルを混乱させて、高い報酬を得ることを報酬ハッキング (reward hacking) といい、古くから議論されてきました。
>これはグッドハートの法則 (Goodhart's law):「指標は目的になったとき、良い指標ではなくなる」の一例です。
・Copilotに絵を作ってもらおうとしたら、いつまでたっても作ってもらえなかったな。出来ました、って言って絵出してこない。絵が無いですよって言ったら、作り直しますの繰り返し・#1 俺みたいだなCopilot・教育論みたいな展開になってきた。 関連 https://gnews.jp/20250610_174410・「生命、宇宙、そして万物についての究極の疑問の答え」も実はこれで適当に回答して誤魔化しただけ疑惑が出てくるな・コパイロットはまだ良いよ。胡乱だけど返事が遅いどころか返って来ないって諦められる。ジェミニはそんな機能が無くてもやれるって言い出すから期待して落とされる。・#5 「やる前から出来ないと言うな!」みたいな事を教えたのだろ。・#6 オレが教えたんじゃないもん!