この記事上でも直接動画を再生できる状態にしましたが、YouTube上ではタイムスタンプをクリックすることで特定のチャプターからの再生が可能になっています。
私の前回のレポートとは比較にならないくらいに緻密な検証作業の成果です。委細は動画を見ていただくべきと思いますので、ここではこの動画を受けて私なりに考えたことを簡単に記してみようと思います。
燈露(ひつゆ)さんは国文関係の資料から字形や紙面の異なるものを考慮して前篇後篇合わせて20点を選択し、その可読率を算出するという作業をなさっています。現在のOCRはAIを用いて字形などを「学習」することによって可読率を上げる様な仕組みになっていますので、学習の素材が多くなるほど精度が向上すると考えられています。このことから、学習の対象となる資料の分野に偏りがあると、資料の多い分野ほど可読率が上昇しやすい傾向が出るのではないか、と考えたくなります。
しかし、20点の資料の可読率が99%から0%まで極端に分散している結果を見ると、資料の分野以外に可読率の低下に繋がる要因が色々と存在している様に見受けられます。特に、人間の目には明らかに文字行が存在することがわかる資料であるにも拘らず、可読率が0%、つまり全く読めていない資料が存在する点は、資料がどの様なものであっても何らかの文字が存在している箇所をOCRが認識する処理に、まだ課題が多く残っていることになると考えられます。
次に、行自体は認識できていても、その行の並び順が本来とは異なるものになってしまう例もいくつかあった様です。これは私が見た例でも同様の傾向が見られました。行順を認識するアルゴリズム自体に課題があるということなのでしょうが、ルビや返り点の様な存在は行の配置を読み取る際に意外に撹乱要因になりやすい様で、活字のOCRでも行の存在や並び順がおかしくなる例は見ています。その点で、この問題は崩し字OCRに限らず、日本語OCR全般にまだ残っている課題なのかも知れません。
こうした検証のフィードバックは次世代デジタルライブラリーでも必要と思うのですが、前回も触れた通り開発途上という理由で現時点では専用の受付窓口は設けられていません。開発の具体的なプロセスは不明ですが、AIの学習を繰り返しながらOCRをやり直す様な作業を行っている様ですので、それであれば現時点で公開されているOCRの結果も都度変わる可能性が考えられます。そうなると、その都度外部からの報告を受け取って反映させたところで、次に最新の学習成果をもとにOCRをやり直した時に必ずしも正しく読まれるとは限らない以上、また元に戻ったり違う形で誤認識されてしまう可能性も残っています。それでは折角受け取ったフィードバックを活かすことに繋がりません。
ただその一方で、可読率が極端に散らばっている現状を見ると、果たしてこうした実情を充分にフィードバックして次の学習に繋げられているのだろうか、という疑問も残ります。受け取ったフィードバックをどの様に活かせば良いかは開発体制とも照らして検討する必要はあると思いますが、まだ開発途上であることを報告する側にも充分理解してもらった上でフィードバックを受け付ける仕組みを作った方が良さそうです。
「次世代デジタルライブラリー」の話題については今後も何か動きがあれば取り上げてみたいと考えています。
と、ここまでを書いて推敲に寝かせておいた最中、次の様なリリースが発表されました。私がこれを知ったのはこの発表の数日後でした。
令和4年12月21日に「国立国会図書館デジタルコレクション」をリニューアルしますhttps://t.co/53kGe6p9yk
— 国立国会図書館 NDL (@NDLJP) December 2, 2022
このプレスリリースには、
とあり、その件数の大幅な増加から、現在「次世代デジタルライブラリー」で検証されているOCRテキストが「国立国会図書館デジタルコレクション」に移行されることが仄めかされています。(1)全文検索可能なデジタル化資料の増加
令和 2 年 12 月までにデジタルコレクションに登録された図書・雑誌などのデジタル化資料がテキスト化され、全文検索可能な資料が現行の 5 万点から約 247 万点に増加します。全文検索でヒットした箇所は検索結果一覧に表示され、該当のコマに直接移動できます。
(プレスリリースPDFより)
私が前回の記事を書く前にメールで問い合わせた際には、リリースが近いことは触れられていませんでした。まだ十分な完成度に到達はしていないと感じていましたので、近日移行されることになるとは私も思っていませんでした。あるいは識字率の低い古典籍資料の部分を切り離してリリースすることになるのかも知れませんが、その辺りをどの様に公開することになるのかはまだ具体的な情報がありません。
「次世代デジタルライブラリー」のOCR精度の問題点については上記の燈露(ひつゆ)さんの動画や私の前回の記事で指摘した通りですが、このまま、もしくは先日確認した水準からそれほど向上していないOCR識字率のままリリースするのであれば、OCR精度にまだ充分ではない部分があることを周知した上で、誤認識されている文字についてはフィードバックを受け付ける仕組みが必要と思います。より多くの利用者の目、特に崩し字を読める人の目に触れさせて間違っている箇所の指摘を集めた方が、改善が早い面もあるかも知れませんので、早期リリースが必ずしも駄目な訳ではありませんが、いくら情報を受け付けてもそれを捌けるだけの体制が作れなければ無駄になってしまいます。折角の機能ですので、逆効果にならない様に判断をお願いしたいところです。
追記:
- (2022/12/07):「次世代デジタルライブラリー」の担当者様から直接に連絡を戴きました。今回21日のリリースに際しては活字資料の分のみで、古典籍資料のOCR結果については含まれないとのことです。古典籍資料の分のリリース日については現時点では未定とのことでした。
開発体制が大きくないためフィードバックにタイムリーに対応する余力はあまりない様ですが、誤認識箇所など気付いた点については一報差し上げる方が良さそうです。
管理人のみ閲覧できます - - 2023年01月11日 09:36:26