自動ニュース作成G
AI-OCRで90年分5万枚の未解読古文書をテキスト化、精度70%でもこの量はスゴイ
https://xtech.nikkei.com/atcl/nxt/column/18/00138/103001636/
2024-11-05 14:01:12
>現代には読める人が少ないくずし字を、AI-OCR(人工知能を活用した光学式文字読み取り)を活用して解読しようとする取り組みがある。取り組んでいる1社がTOPPANだ。
パソコン版の普及価格で出してくれないかな、今のOCRは、後で修正作業が面倒臭くてかなわん。あっちこっち導入して試したけど、結局、どれも修正作業が面倒臭くて使うのをやめてしまった。
必要なのは「文字認識」だけじゃなくて「単語/言葉/文法」の認識なんだよ。
・この分野に最初に目を付けたのはどこかの外国人女性で、その後google japanに入社したと思ったが、今何してるんだろう。
・今サカナAIhttps://jbpress.ismedia.jp/articles/-/83052にいるのか!https://researchmap.jp/tkasasagi
・こういうのこそジャストシステム本気出せ、て思う
・なんでジャストシステム?
・今の本でも誤字脱字があるけれど 昔の巻物とかには誤字脱字ないのかな
・いっぱいあってそれが現代語の語源だったりしてめんどくさい。そして誤字脱字だったのか当時はもう語形変化してたのか調べないとわからない。
・#5 くずし字というくらいだから一つ一つの文字を個々に解析しても絶対判別はできなくて、AIは崩れた文字の並び(文脈)やそれまでの解読結果から、確率の高そうな言葉を当てはめている。多少の誤字脱字は無視できるはず。
・そもそも正しい文字なんてものは当時なかったので、手習いの師匠の出来次第じゃよ