【連載】vol.3「AIくずし字認識アプリ「みを(miwo)」」 - 現役大学生が有り余る行動力で和本に触れてみた件ーー和本探しに出かけてみよう!ーー #和本有り

このエントリーをはてなブックマークに追加 Share on Tumblr

wahonari_bn.jpg
コーナートップへ

vol.3「AIくずし字認識アプリ「みを(miwo)」」


和本が好きないち大学生が、
どこに行けば和本を見て、触れるのか?
どこに行けば和本を買うことができるのか?
小中高生・大学学部生向けに伝えるべく、はじめた連載、
第三回はいま話題のくずし字認識アプリです!

実際つかってみてどうなのか、
その利用について報告します。
ぜひお読みください!


AIくずし字認識アプリ「みを(miwo)」

スクリーンショット 2021-09-16 16.25.19.jpg
「みを(miwo)」公式サイト(最終更新:2021年9月15日)

●「みを(miwo)」について詳しくはこちらをご覧ください
・みを(miwo) - AIくずし字認識アプリ(ROIS-DS人文学オープンデータ共同利用センター(CODH))
http://codh.rois.ac.jp/miwo/

●ダウンロードはこちら
・Android: Google Play
https://play.google.com/store/apps/details?id=jp.ac.rois.codh.miwo
・iOS: App Store
https://apps.apple.com/us/app/miwo/id1581794085


■AIが自動でくずし字を解読?!待望のAIくずし字認識アプリ「みを(miwo)」正式公開

 2021年8月30日、AIくずし字認識アプリ「みを(miwo)」が正式に公開されました。

 すでにツイッターなどSNS上でも話題になっていたアプリですが、どこがすごいかというと、やはり「無料で瞬時にくずし字を解読してくれる」という点でしょう。古典文学を研究する人にとっても便利なアプリですが、一般の方々も「みを」を使えば、家の倉庫で眠っていた古い本に何が書かれているのか知ることができます。

 とはいえ、その便利さゆえに「AIがくずし字を全部読んでくれるからくずし字を勉強する必要はない」と考える人が生まれるのではないかという懸念もあります(★注1)

 しかし、私は「みを(miwo)」を含む「AI(人工知能)」技術を通して今よりも多くの方々がくずし字に親しめるようになって、歴史学・文学などはもちろん、「AI(人工知能)」に助けられながら海外での日本文学研究もさらに進むのではないだろうかと考えています。「みを(miwo)」の紹介ページによると以下のように紹介されています。

くずし字がきちんと読める人は数千人程度(人口の0.01%程度)と言われます。日本に残された大量の歴史的資料をより使いやすくするには、くずし字を翻刻する必要がありますが、くずし字を読める人が少ないため翻刻には非常に長い時間が必要です。そこで私たちは考えました。AI(人工知能)はその助けになるでしょうか(★注2)

 私はこの「助け」という言葉が大事だと思います。AIだからといってすべてのくずし字を完璧に解読してくれるという保証はありません。あくまでの人間の「助け」になることをその役割としていることに私たちはまず理解する必要があるのでしょう。

 日本語学の研究者でもあり、コンピューターのプログラミングにも詳しい近藤泰弘(2021)氏もAIによるくずし字認識アプリについて

現状での、くずし字AI認識アプリは、一般の人たち、そして研究者の人たちいずれにとっても、それぞれの立場に応じた「良きアシスタント」であると考えられる。過度に頼る必要もないし、また、恐れを感じることもないのである(★注3)

と述べています。また、近藤氏によると「みを(miwo)」を使った人の感想や自身の実験などから、江戸時代の版本で8割、手描き写本などで6割程度の認識率を見せるとのことですが、このような技術が今までなかったことを考えると、画期的なアプリであることは言うまでもありません。

 それでは、実際に「みを(miwo)」を使ってみたいと思います。


■現役大学生が「みを(miwo)」を使ってみた

写真1.jpg 
写真1 「みを(miwo)」の起動時の画面

 「みを(miwo)」をインストールし起動すると、写真1のような画面が表示されます。画面右下の「カメラ」と「アルバム」からくずし字がある画像を読み込み、画面下の真ん中にある緑のボタンを押せば、くずし字が翻刻される仕様になっています。

 左下の「テキスト」では翻刻された文字がコピーできますので、いちいち翻刻された文字をタイピングしなくても済むようになっています。「コメント」では翻刻の結果を「タイトル」と「説明」を付けて保存することができ、いつでも翻刻の結果を再度読み込むことができます。右上の「TT」というボタンでテキストの大きさの調整もできます。必要なものはすべて揃っていて、かなり便利に使えました。

写真2.jpg
写真2 「みを(miwo)」のメニュー画面

 メニュー画面では「くずし字検索」で「日本古典籍くずし字データセット」と連動して検索できるようになっています(写真2)。一文字のくずし字に対して用例が知りたい場合かなり役立ちます。

 では、さっそく和本を読み込んでどれくらい認識してくれるか確認してみたいと思います。ただし、写真の撮影方法などによって結果が異なりますので、ご参考までにしてください。

 最初に読み込むのはこの連載の自己紹介編でもご紹介した岡田玉山の『実語教画本』(1802年刊行)です。

写真3.jpg
写真3 くずし字を1ページ分まるごと読み込んだ場合

写真4.jpg
写真4 くずし字を3行ごとに読み込んだ場合

 くずし字をどれくらい認識してくれるか気になったため、一気に1ページ分読み込んだ場合と、3行ずつ読み込んだ場合で翻刻された文字を比較してみました。その結果がこちら。

・一気に1ページ分を読み込んだ場合
を親みふこと御のるがごとく子の父に事強すといへども臣は詞てにして片時もるゝなく死生存亡を共にすべき者なれば君は父よりも猶重しされば人も臣之重若猶子之事又又至親猶未若君臣之内証也といへり身
・3行ずつ読み込んだ場合
を親みふこと子の父に事るがごとくすといへども臣は同体にして片時もるゝなく死生存亡を共にすべき者なれば君は父よりも猶重しされば人も臣之事君猶子之事父父至親猶未若君臣之同体也といへり身
・筆者翻刻
を親みふこと子の父に事るがごとくすといへども臣は同体にして片時もるゝことなく死生存亡を共にすべき者なれば君は父よりも猶重しされば人も臣之事君猶子之事父父至親猶未若君臣之同体也といへり身

 一気に読み込んだ場合はところどころ間違いが多いのですが、3行ずつ読み込んだ場合、ほぼ原文通りに翻刻されました。よって「一気に読み込むより少しずつ読み込んだ方が精度は高い」と思います。

 次に、画質を落として認識率に差があるか確かめたいと思います。

写真5.jpg
写真5 岡田玉山の『実語教画本』より

 元のカメラの写真は1080×1920のサイズですが、これをそれぞれ50%の大きさと20%ほどの大きさで読み込んでみたいと思います(解像度はすべて72dpiです)。

・元のカメラの写真の場合(1080×1920)
臣のを親み敬ふこと子のに事るがごとくすといへども若臣は同体
・サイズを50%にした場合(540×960)
臣のを親み敬ふこと子のに事るがごとくすといへども若臣は同体
・サイズを20%にした場合(216×384)
臣のを親み敬ふこと子のに事るがごとくすといへども若臣は筒鉢

 サイズを変えてみた結果、やはり画像が小さくなれば認識率が低下することがわかりました。

 次にいろんなくずし字を読み込んでみたいと思います。最初にヤフオク編で登場した『実説名画血達磨』から、変体仮名混じりの文章を解読させてみたいと思います。

写真6.jpg
写真6 『実説名画血達磨』より

写真7.jpg
写真7 『実説名画血達磨』を読み込んだ場合の画面

・翻刻結果
しかれば正之は一旦申いだせし
葉なればさつそく一九
回国せしむべしもつと
るところなりとに申たされ
・筆者翻刻
しかれば正之は一旦申いだせし
葉なればさつそく
図書せしむべしもつと
るところなりとに申たされ

 全文がくずし字でなくても認識してくれるところが素晴らしいですね。一部間違っている箇所は、原本自体の文字のインクが薄いことや、カメラの画質にもよりますから、まずまずの性能だと思います。

 次はくずし字をパソコン画面から撮影して読み込んだものと、パソコンでスクリーンショットを撮りイメージファイルをそのまま読み込んだ場合で比較してみたいと思います。作品は山東京伝の『五色潮来艶合奏(ごしきいたこあだなつれぶし)』(1817年作)です(★注4)

写真8.jpg
写真8 携帯のカメラでパソコンの画面を撮影した場合

写真9.jpg
写真9 パソコンからスクリーンショットを撮りイメージファイルを切り取った場合

・携帯のカメラでパソコンの画面を撮影した場合(写真8)
こゝは所も小田原に二とはさがら大しんい丹波やの工左とて米商売のちりほこりみんもらさ帳合のそろばん......
・パソコンからイメージファイルを切り取った場合
こゝは所も小田原に二とはさがら大しんい丹波やの工左とて米商売のちりほこりみんもらさ帳合のそろばん......
・筆者翻刻
こゝは所も小田原に二とはさがら大しんい丹波やの工左とて米商売のちりほこりみんもらさ帳合のそろばん......

 携帯で撮影したものより、パソコンの中でイメージファイルとしてダウンロードし読み込んだ方がより精度の高い結果を得られることができました。やはり「文字がきれいに写っている」ことが重要なようです。

 以上の点から、「みを(miwo)」を使う場合、以下の点に気を付ければより正確な結果が得られると思いました。

1.カメラで撮影する場合、全文ではなく少しずつ撮影し読み込む。
2.現物がない場合、パソコンの画面を撮影するよりイメージファイルをダウンロードし読み込む。
3.画質はなるべく良いものを。カメラの設定が低画質になっているなら高画質に変えてみる。

 その他にも、浄瑠璃本や書簡なども試してみたのですが、かなりよく認識してくれました。字体がかなり違うのにそれでも対応できている点が本当に素晴らしいです。もし間違って翻刻されたとしても「ヒント」にはなり得るのでとても便利ですね。私がくずし字を勉強し始めた時は、1ページを読むのに6~7時間ほどかかりましたが、「みを」を使えばより効率よくわかりやすく勉強できそうです。

■「みを(miwo)」を使ってみて感じたこと

 「みを(miwo)」は使い方もわかりやすく、無料で配信しているため本当にありがたいアプリケーションだと思いました。一部では「くずし字を読ませる課題をこのアプリを使って終わらせてしまう学生がいるのではないか」という心配の声もありますが、「みを(miwo)」を使ってそのままコピー&ペーストしてはあまり高い成績は望めないでしょう。仮にそのままコピペしたとして、それでは自分の勉強になりませんから、責任はそのまま自分で負うしかありませんね。

 一方で「みを(miwo)」をヒントとして課題に取り組むのは良いのではないかと思いました。他の授業や部活動、アルバイトとの兼ね合いでくずし字を勉強する時間が足りない、身体が疲れているなどということもありますから、紙媒体の辞書を開いて1ページを読むのに多くの時間を費やすことが難しい学生もいると思います。大学だとさらにそういった学生がいるのではないでしょうか。

 近年、古典の在り方をめぐる様々な問題が浮かび上がってきています。文学通信でも前田雅之『なぜ古典を勉強するのか』(2018年)、長谷川凜他著『高校に古典は本当に必要なのか』(2021年)、畑中千晶『これからの古典の伝え方』(2021年)などが次々に本となりました。研究の場においては、学会では日本近世文学会にて「デジタル時代の和本リテラシー古典文学研究と教育の未来」(2021年6月)というシンポジウムが開かれ、研究会だと同志社大学古典教材開発研究センターによる「古典教材の未来を切り拓く!」(コテキリ)から「古典好き生徒を増やしたい!」(2021年9月)をテーマに研究会が開かれました。

 その焦点は「学生(主に高校生)」に当てられていて、古典を難しいと感じる学生が多く、どうすれば古典を好きになれるかについて「実物(和本)に触れる」「漫画・アニメなど学生に身近なものと結びつける」などの取り組みが行われています。その中で「みを(miwo)」に多くの方々から期待と注目が集められています。

 古典はなぜ必要か、古典を好きになってもらうためにはどうしたらいいか議論される現時点において「古典は難しい、何が書かれているかわからない」を解決するアシスタントとして、「みを(miwo)」はかなり役立ってくれるのではないでしょうか。また、外国人の研究者や留学生にとっても、「みを(miwo)」の公開は朗報ではないでしょうか。

 今後の課題としては、もちろんアップデートによって、くずし字の認識率が徐々に向上され、付加機能も追加されさらに使いやすくなることも期待できますが、「みを(miwo)」のようなアプリを開発する研究者が増えることも重要であると思います。私は以前までは文学研究とパソコンでのプログラミングは別物として考えていましたが、近年の文学における研究動向を見ると、むしろ文学だけでなく+αとしてパソコン言語がわかること、さらには英語が話せるようになることなども重要であると気づかされました。よって、私もプログラミングや英語を学生時代のうちに不足ない程度には学んでおこうと考えています。

 このあとは私見になりますが、私はすでに日本の古典文学は先人たちの知恵によってある程度「研究し尽されている」と思います。それは有名な文学作品になるほど顕著ではないでしょうか。よって、先行研究を中心にそれを「批判・肯定」し新たな論を打ち出すか、または誰も研究していない未知の領域を探す。この二つの道で卒業論文なり修士・博士論文を進めることが一般的ではないだろうかと思います。そんな中、自身の研究を一般の人々と共有、また世界に発信する研究も「第三の道」として考えられるのではないでしょうか。「みを(miwo)」もそうですが、例えば「浮世絵に見られる着物のデータベース化」とか「古典文学の文章を自動で現代語訳してくれるプログラム」などなど、研究成果を研究者だけと共有するのではなく、一般の方々や外国の方々とも共有でき、意見がもらえる研究。そうした研究も重要であると感じています。

 つまりは、研究者と文学にまだ興味がない一般人とを結ぶ架け橋的研究ということになるでしょう。そうした研究の発展可能性は、もしかするとすでに研究されているジャンルをさらに深く掘り下げるよりも大きいのかも知れないと、私は思います。

 「みを(miwo)」はそうした第三の道に進んだ研究として、とても良い例として参考にできると思います。また、「みを(miwo)」の開発者であるカラーヌワット・タリン氏によると、アプリを開発するようになったきっかけは藤子・F・不二雄氏の漫画『キテレツ大百科』の「神通力」(★注5)だそうです。私は研究というのは、先行研究を踏まえてそれに肯定・批判する形で進めるものだと難しく考えていたので、こうして漫画からヒントを得てそこからさらに掘り下げていくのも良い方法だと学ぶことができました。

★注★
注1★2021年6月12日に開かれた日本近世文学会春季大会「シンポジウム デジタル時代の和本リテラシー」にて。
注2★「みを(miwo)」紹介ページ
注3★近藤泰弘「AIくずし字認識について―過大評価と過小評価のその先へ―」文学通信ブログ2021年9月6日記事より。
注4★山東京伝『五色潮来艶合奏 6巻』国立国会図書館デジタルコレクション。
注5★「みを(miwo)」の開発者であるタリン氏のツイッター(2021年8月30日付)より。