近藤泰弘「AIくずし字認識について―過大評価と過小評価のその先へ―」

投稿日:

このエントリーをはてなブックマークに追加 Share on Tumblr

AIによるくずし字認識アプリがリリースされたのにあわせ、その技術をどう考えていけばいいのか、みなさんと考えていきたいと思い、近藤泰弘氏にご寄稿いただきました。ぜひご一読ください。(文学通信編集部)

*****

AIくずし字認識について
―過大評価と過小評価のその先へ―


近藤泰弘
こんどう・やすひろ。日本語学。青山学院大学教授。日本語学会会長。著書に『日本語記述文法の理論』(ひつじ書房、2000年)など。Twitterのアカウントは@yhkondo


1 はじめに

 近年、AIによるくずし字認識の理論と技術が急速に進歩している。特に、人文学オープンデータ共同利用センター(CODH)のカラーヌワット・タリン氏、北本朝展氏、アレックス・ラム氏、ミケル・ボーバーイリザー氏等が開発しているもの(KuroNetくずし字認識サービス「みを」(miwo)AIくずし字認識アプリ)に注目が集まっている。特に、後者の「みを」アプリは、2021年の8月末にリリースされたばかりであり、スマホやタブレットで個人の撮影した典籍の文字画像を自由に認識できることもあって、多くの人の関心を引いている。この技術について、国文学研究者からの反応はいくつかに分かれるようだ。とても便利になるという声、まだ十分な能力がないという意見、また、人間がくずし字を読む能力も重要であるので、こういう技術には怖さを感じるという意見もある。たしかに、くずし字解読の宿題を出したら、全部これで片付けてこられたらちょっと困るかもしれないと思うのは自然だろう。いずれにしても、ここには、AIくずし字認識への、過大評価と過小評価とが存在するのだと思う。

 従来にまったくなかった種類の技術なので、いろいろな意見がでることはやむを得ないが、私は、語学側の観点で、国文学研究を行うアプローチをしてきており、また長くコンピュータを利用した日本語の古典研究をしてきたので、この問題には非常に興味を持っている。今回、この問題について、少しく、感想を述べてみたいと思う。

2 くずし字をAIが読むとはどういうことか

 もともと、コンピュータが、活字や手書きの文字を読む技術(いわゆるOCR)というのは、意外に身近なところから始まったものである。日本における最初の実用例は、郵便番号の読み取りで、1960年代のことであるが、今では、ふつうの印刷本ならば相当の精度で読み取ることができるようになり、近く、国立国会図書館で作成した印刷本の画像データ全部(247万点分)をOCRでテキスト化するプロジェクトも始まると聞いている。しかしながら、古典のいわゆるくずし字の仮名や漢字の読み取りの難しさは印刷本のOCRの比ではない。複数の異体字があることもさることながら、最大の難点は、連綿体になっていて文字の切れ目がはっきりしないこと、そしてそのレイアウトが複雑な場合が多いことである。1ページの中で、絵の周りなどに複雑にレイアウトされている上に連綿体になっているくずし字を1字ごとに分割して、その字に現在の正しい文字コードを割り当てる作業は非常に難しい。

 これを解決できたのが、近年のAI(人工知能)技術であるが、その中心は、「深層学習」と呼ばれる新しい技術である。よく考えて見るとわかるように、くずし字はひとつずつ大きさも違い、そのくずし方も千差万別である。なにか決まったテンプレートのようなものとの一致だけでは正確な文字認識は不可能である。深層学習では、まず物体を検出する手法で複雑な字の配置を認識し、その後、個々の文字を、多様な文字イメージの学習結果によって、正確な認識を可能にする。また、その文字の学習データとして、CODHと国文学研究資料館等が共同で作成した、「日本古典籍くずし字データセット」を用いている。また、この深層学習の強化のために、Kaggleと呼ばれる世界的なAIコンペティションの中でくずし字解読コンペを開き、そこでの優勝者であるtascj氏のチームの認識アルゴリズムが採用されている。いろいろな面で、現在考えられる最高の技術で、このAIくずし字認識のシステムが作られているのである。

3 くずし字AI認識の発展性

 ところで、今のくずし字AIの能力はどの程度のものだろうか。ネットで「みを」を使った人の感想や私の実験などから見ると、江戸時代の整った版本ならば8割程度の認識力を持っていると思われる。手書き写本だとさらに落ちて6割程度であることもままある。非常に難解な漢文の多い古文書となると5割以下の認識率であることも多い。これをもって、「まだまだ」と考えるか、「すごい」と考えるかは、人により、場合によると思う。普段、くずし字を読まない人が、家にある掛け軸の文字を読んでみれば、すこしでも意味がわかることになり、それは大きな力になる。古文書をよく読む人でも、あらかじめ半分程度の字でもわかっていれば、その文書の内容の見当をつけることくらいはできるはずで、そのような下調べにも有効だ。しかし、「みを」だけで100%わかるということはなく、専門家として、古典籍を扱っていくには、自分自身もくずし字を読むことができなくてはならないことは変わらない。国文科の授業から、くずし字の授業をなくすわけにはいかない。そもそも、「字」が読めても、全体としての古文・漢文の現代語訳や、その文脈における解釈ができなくては、本当の意味で典籍を理解したことにならないのはいうまでもない。

 つまり、現状での、くずし字AI認識アプリは、一般の人たち、そして研究者の人たちいずれにとっても、それぞれの立場に応じた「良きアシスタント」であると考えられる。過度に頼る必要もないし、また、恐れを感じることもないのである。

 しかし、最初に書いたように、手書き文字のコンピュータ読み取りが、郵便番号読み取り装置として最初に実用化されたのは1967年で、そこから半世紀でここまで来たわけである。コンピュータ技術の進歩は日進月歩である。現在、1字ごとに認識してその結果を出しているが、どの字とどの字が隣に来やすいという情報を文字ベクトルのデータとして保存しておけば、その情報を計算して、認識結果を補正するようなことが考えられる。また、アプリのユーザが、認識結果を修正したデータを新しい学習データとして、認識力を高めていくことなども考えられる。その他、コンピュータの能力向上や、データの強化でさらに認識能力を上げられる可能性は広く残されている。あと10年から20年で飛躍的にAIくずし字の能力がアップしていくと考えるのが自然である。先に述べた「良きアシスタント」がどんどん賢くなっていくことが予想される。昔、携帯電話のカメラによる写真が「写メ」と呼ばれていた時代には解像度も悪く、あくまでデジタルカメラの代替品だったが、現在のスマホ写真の高性能なことは誰もが知るところである。AIくずし字アプリもさらに高性能となり、文学・歴史・語学その他の古典籍のフィールドワークに必須のものとなっていくと思われる。

 また、Kuronetのようなサーバー型のAI認識も独自の価値を持っていくだろう。国文学研究資料館が中心になって作成している「日本古典籍データセット」には多様な古典籍画像データが収められてきているが、このような写真版の古典籍は今後もどんどんと増加するだろう。これを全部まとめて、くずし字AIで翻字し、それを自由にテキスト検索するようなことが可能になれば、くずし字解読の精度は少々悪くても、研究上に多大な便益をもたらす。日本語資料のうち、ちゃんと翻字されて研究対象になっているものはまだごくわずかである。特に近世の版本・写本のほとんどはまだ未翻刻である。『日本国語大辞典』などで用例がないとされている多くの語が、これらには含まれている。コンピュータによる文字認識は、速度が高速であるため、一度システムを組んでしまえば、人間にはとうてい不可能な、数千点、数万点の典籍の翻字にもさほど時間はかからない。これが今後期待されるくずし字認識のもうひとつの使い方だろう。認識結果の精度が上がれば、これと古典語から現代語への自動翻訳技術と組み合わせて、今知られていない、たくさんの典籍への現代人のアクセスを向上させ、文化的資産を一挙に増やすことができると考えられる。

4 今後の課題

 このように今後の発展が期待されるわけであるが、そこで欠かせないのが、古典籍がわかり、コンピュータ技術に理解ある研究者である。今回は、カラーヌワット・タリン氏のようにその両方を兼ね備えた研究者の存在でこれが完成したが、このような研究者がさらに必要である。くずし字AI認識のデータ(KMNISTデータセット(機械学習用くずし字データセット))は、MNISTといわれる一般的な文字認識用データに準拠して作られているので、あちこちにあるMNISTに対応したPython言語による深層学習プログラムを使って動かすだけならそれほど大変ではない。文学部の授業でまずPython言語の学習やKMNISTの実演ができる、そういう環境が今後ますます必要になってくると考えている。

(参考)人文学オープンデータ共同利用センター「くずし字OCR(AIくずし字認識)」ウェブサイト
http://codh.rois.ac.jp/char-shape/OCR/