国立国会図書館、来春までに247万点・2億2300万枚超の資料を全文テキストデータ化へ

自動ニュース作成G国立国会図書館、来春までに247万点・2億2300万枚超の資料を全文テキストデータ化へhttps://ledge.ai/ndl-clovaocr/2021-07-19 17:24:08以前からPDFデータはあったんだけど、テキストデータ化で全文検索とかが容易になるとのこと。・旧字体とか特殊文字はどうするんだろうな・公立図書館で使えるアプリがどうなるかだな。制度的に国会図書館の資料を貸し出しできるので、この辺が整備されるのがでかい・テキストデータ化の過程で改竄や隠蔽が起きないと良いが……。・わざわざ改竄だの隠蔽だのする暇人がいるかねぇ…。それよりその後の方が心配だよ。テキストデータの総量はこれから増えていくと思うけど、その中には相互に矛盾してたり今では否定されているような説も含まれてくるはず。それを、自説に有利なところだけを抜き出して根拠とする人が出てくるよ。で、反論するのも面倒だからと放置されると陰謀論に傾く、と。・もちろん、同様のことは今までも起きていると思うけどテキストデータを容易に検索できることで変な人が頑張ってしまわないか、そっちの方が心配だよオレは。・テキストデータの検索が容易になるということは、そういう捏造に対して原文をつきつけることが容易になるということだぞ・#6 そうだといいんだが、実際は原文を明らかにしないで相手に「勉強不足」などのマウント取って悦に入る奴が多いからな。突きつける側が膨大なデータベースから検索して反論するのは骨が折れる。てかアホに付き合うのは時間の無駄。・しかし、「データベース」と「デ―タベ一ス」の区別とか、つかないだろ。「ベ」と「ベ」の区別とか。そういうのは人力で文脈見ながらやるしかないんだろうな。・それこそAIの出番じゃないかな。「デ―タベ一ス」の文字列から推測される単語は「データベース」である、みたいな。GANTZの「くだちい」とかが勝手に訂正されそうな心配はあるけど。