自動ニュース作成G
AIトレーニング用のデータをかき集めるクローラーを無限生成される迷路に閉じ込める「Nepenthes」が開発される
https://gigazine.net/news/20250127-infinite-maze-traps-ai-crawler-nepenthes/
2025-01-27 17:37:47
>大規模言語モデル(LLM)をトレーニングするためのデータをスクレイピングするのがクローラーですが、そんなクローラーをターゲットとして、無限に迷路のようなトラップを生成するのがNepenthesです。
>Nepenthesについて、作者は「実際には内部に侵入したものすべてを何でも食べてしまいます」と警告しています。
一定階層潜ったらそのドメインから離れる…ってやるだけで回避できそうに思うがクローラーとしては難題だろうか?
・ランダムに縦方向横方向バラバラで上下繰り返すようにリンク生成されたら判定難しいだろうな
・robot.txtの書き方次第だろうけど通常のクローラーも補足しそうやな。クローラー側はパラレルに動くだろうし、ひとつのドメインに10万とかの上限値をつけて回避されそうではある。
・これ、数年前検索してたら偶然似たようなサイト見つけたことがある、ちゃんとした企業のドメインなのに複数のリンクだけのページの先には無数の単語が羅列されてて怪しすぎて困惑した、トップを漁ったらbot研究用みたいなこと書いてたんだよね。
・防壁迷路か。
・対AI攻勢防壁みたいなのもでてくるかね