古文書をAIで読む

翻刻 | 古文書 | AI古文書 | 古文書解読 | 岩倉具視 | 岩倉使節団2021.11.19

私は普段から、昔の人が書いた日本語が同じ日本人でありながら読めないので読めるようになりたいと思っている。
機会があって、京都市の文化財保護課が催す「AIを活用して古文書を読む講座」を聴講することになった。

10月から5回連続の講座で、きょうは3回目。
きょうは、明治4年~6年の岩倉使節団の特命全権大使、岩倉具視(ともみ)が旅先から送った手紙を読んだ。

文書(手紙)を画像として読み込んで、一字一字にわけ、その文字を、あらかじめ蓄積した「くずし字データベース」と照合し、高速に検索して形のよく似た文字を表示(提示)するというアイデアだ。
通常は一字とはいかず、候補となるいくつかの字を表示してくれる。

AI
アメリカ滞在中の岩倉具視が江戸で大火があったのを聞いてしたためた書簡
明治五年四月廿一日付け

さて、この字は?と、候補になる文字を表示させると「面」「扨」「物」・・・ が出てくるという訳だ。( 👇 )
一見したところ「而」のように見えるが、前後関係から「扨」(さて)が正解だという。
候補の中から「扨」を選ぶには、前後関係から判断しなければならない。
ほんとのAIなら、その判断もしてくれるのだろうが、そのレベルには達していないようだ。

AI
御覧と存候、扨てサンフランシスコ

こちらの文字は「旨」(むね)だそうだ。( 👇 )
候補文字がずらずらと表示されているが、「旨」はずっと下の方だ。
一応は候補文字の中にはある。
文章の意味から「旨」になるのだが、そう判断するのは至難の業だ。

AI
焼抜候旨、不容易天災に而

こちらは、上記の「サンフランシスコ」の行で、正解は「存」だそうだが、候補の中にも表れてこない。( 👇 )

AI
御覧と存候、扨てサンフランシスコ

こういった場合はお手上げだ。
仮に候補文字が表示されても、多少の手助けにはなるが、読み手に学識経験がなければとうてい解読できない。
「最先端技術のAIを活用した」というにははばかられるようなレベルだ。
まだ開発途上だとして、今後の向上を暖かく見守りたいと思った。

2021.11.19







コメントの投稿

非公開コメント

筆者のプロフィール ↓

shochan31

Author:shochan31
名前が しょうじ なので障子が背景となっている。ペンネームはアルファベットで shochan(しょうじの愛称)だが数字 31 の由来は不明だ。

最近書いた記事 ↓
月別アーカイブ ↓
このブログ内を検索できます ↓
管理者専用 ↓