自動ニュース作成G
住所の正規化は沼である。
https://togetter.com/li/2161880
2023-06-07 00:29:19
>河野太郎がマイナンバーカードの住所照合についてデジタル音痴ぶりを如何なく発揮した件
>河野大臣『問題は住所が「港区赤坂一丁目2の3」と書く人もいれば、「港区赤坂1-2-3」と書く人もいる…(中略)将来的にはAIの技術を使って表記揺れを判断することがあり得るかもしれない。』
杉原航太、ソトン秋元、ヤバいやつばっか
・名前もフリガナがないから、いろんな読みで複数〇〇するみたいなんもあるしね・物理メール屋方面が、郵便番号と住所の一覧データを公開しているのでダウンロードしてながめてみるといい。以前プログラム的に処理しようと色々画策したけど、正規化はかなり難しい。これには読みがなも入ってる https://www.post.japanpost.jp/zipcode/download.html・市町村合併や昇格で旧住所や区画整理、開発、分筆合筆、国土調査で突然入り乱れるのに簡単だと思うのは社会経験なさ過ぎやろ、と。最近はルール化されて基準が出来たから少しずつ改善してゆくのはわかるけど、番地と地番が大きく違って登記情報が拾えない場所なんて今でも山程ある。それこそaiにお願いして虱潰しに整合性とらせないといけない。・なんか知らんけどすごい>経済産業省・デジ庁が公開していたものの朽ちてしまっていた住所正規化ライブラリ、いろいろ手直しして動く状態にしました! 河野大臣が挙げていらした「東京都港区赤坂1丁目2の3」も正規化できます。 ブラウザ上でのお試しにも対応しました!https://twitter.com/yuya_presto/status/1665977432854372352・京都にある、上る下るの処理出来るの?https://livejapan.com/ja/in-kansai/in-pref-kyoto/in-kyoto-station_to-ji-temple/article-a2000206/・日本語だと途中省略されたり表現が違ったりするが順序は変わらない。全ての地名が網羅出来る路線図(構文図)みたいな形でパターン化した上で確定している部分を穴埋めして違う部分の名寄せをしていけば出来そうな気はするな。#4 出来ては居るのか。・#4 色々できてなさそう。素人が安易に「できらぁ!」して自爆してる感じに見える。結論は出てないし GitHubに上がってるので、他力サポートで完成に至るかも知れん・とにかく日本の住所のヤバさをもっと知るべきだと思いますhttps://note.com/inuro/n/n7ec7cf15cf9c・新潟県新潟市北区東栄町(とうえいちょう)と新潟県新潟市北区東栄町(ひがしさかえまち)、地名の万丁目が10000-0に。こんなん笑うしなかい・#8 落ちに大いに笑わせて貰った。打ち込む人耄碌しすぎやろw・京都をどうすんじゃい・#11 ある住所録ソフトに入力していたら、文字数オーバーで困った事がある。 郵便番号は別欄にあったし、勝手に程よく省略して入力したけど。・マイナンバーに関わる住所であれば住民票の表記に合わせることになるから、それほどややこしい問題だと思えないが(と、50代無職が申しております)。・全国各地に同じ住所に全然異なる2つの『公称住所』と『通称住所』がある場所があって、しかも通称住所が主に使われてるってパターンが多い。今回の正規化に向けて通称住所は廃止って通達があるらしいが、結構な混乱を招くのではないかと思う。運転免許証とか、通称住所で回してるシステムが沢山ある。・電話番号も携帯の普及で複数欄になったし、トリミングするんじゃなくてとりあえず全部放り込む方式で行けばいいのに・札幌のアラビア数字が入っている住所とかもやばい・登記簿とかもう古代の住所が記入されてたりしてカオス・そういやGoogleMapとかの検索ではどうしてるんだろう?・ドバイとかには住所って概念がないって話もでていた。日本人からすると驚きだな。https://togetter.com/li/2162506・戸籍制度とかも日本と台湾と韓国しかない、って話らしいね・#20 その二国も日本の統治時代に日本が整備したからだったりするのかな?