実験サービス #次世代デジタルライブラリー に、OCRテキストを画像に重ねて表示する機能を追加しました。閲覧画面右上の「T」(矩形ごとにテキスト表示)ボタンをクリックすると、資料画像上のテキスト部分がハイライトされ、カーソルの位置のテキストが表示されるようになります。#NDL全文使ってみた pic.twitter.com/mFdkax9sk1
— 国立国会図書館 NDL (@NDLJP) November 8, 2022
「次世代デジタルライブラリー」について、NDLラボのサイトでは
と紹介されており、現在「国立国会図書館デジタルコレクション」で公開されている著作権切れの図書や古典籍資料の全文検索や画像検索機能が試験的に公開されています。次世代デジタルライブラリーは、国立国会図書館次世代システム開発研究室での研究を基に開発した機能を実装した実験的な検索サービスです。全文テキスト検索機能や機械学習を用いた自動処理、International Image Interoperability Framework(IIIF) API等の技術的有効性を検証することを目的としています。
今回のお知らせに併せて公開された機能では、上記ツイートにある様にオレンジ色の長方形でテキストとして認識された箇所が表示され、更にその長方形の上にマウスカーソルを持っていくと、その長方形内のテキストのOCR結果が表示されます。そこでマウスをクリックすると、OCR結果のテキストがコピーされます。
どちらかと言うとこの機能は、蔵書の全文検索を実現する過程で実現した副産物的な機能なのでしょうが、OCRの結果が実際のテキストと比べて問題ないものとなっているかを確認する上では必要なものと言えます。この様な形で表示されることで、どの箇所がOCRに認識されているのかが可視化され、結果との結びつきがわかりやすくなっています。

鳥跡蟹行社版「新編相模国風土記稿」該当ページ
青いマーカーが「鎌倉椿」の位置を示している

クリックしたところ
複雑な構成の行でもOCRが追随出来ている

テキストをかなり精度高く解読出来ている
(何れも「次世代デジタルライブラリー」
よりスクリーンキャプチャ)
一方、上記ツイートの画像では近世の手書きと見られる文書の「崩し字」を解読した結果を表示しています。私も崩し字で書かれた資料を数点確認しましたが、それほど崩し字の解読能力のない私の目でもOCR結果の誤りを1ページ当たり数点程度ずつ確認できる結果に留まっていました。
この件について、誤変換を報告する窓口がないのかNDLラボの担当者宛にメールで問い合わせてみたところ、現時点では開発途上のサーバを試験運用している段階であることから報告を受け付けていないとの返事を受け取りました。しかし同時に、問い合わせた際に送った誤変換箇所についてはAIの学習がまだあまり進んでいない時点での変換結果であったことから、最新の学習結果をもとに改めてOCRをやり直したとのことで改めて意見を求められました。該当箇所については確かに誤変換は解消していましたが、他の箇所では誤変換が解消していない箇所もまだ各ページ毎に残っている状態でした。
現在はまだ開発途上とのことですので、この記事中で具体的に該当箇所を公開することは避けますが、現時点の変換結果について意見を求められたため、現段階では解題などである程度の予備知識を持って読み解ける人が「OCRの精度に充分でない部分がある」という意識をもって使う分には助けになるが、少なくとも、予備知識のない人にも幅広く使用を勧めるのはためらわれるのが正直なところだという意見を率直に伝えました。
先方からのメールによれば、現状ではAIが学習する例が限られてしまう登場回数の少ない字では誤変換の可能性が増えてしまうこと、また縦書きで連続的に書かれる崩し字の特性上から、特に「翁」「曽」の様な偏旁が上下に分かれる様な形の漢字を正しく1字として認識できずに複数の字として誤認してしまう例への対応に苦慮しているとの状況を伝えて戴きました。
その点では、この「次世代デジタルライブラリー」については現状はまだ開発途上であることを充分に認識して利用するべきと言えます。上記の「鎌倉椿」の例の様に、これまでの検索ではヒットしなかった書物も全文検索で新たにヒットする可能性はあるとは言え、OCRの精度の制約から検索キーが含まれる「全ての」書物を漏れなくヒットできる状態ではないこと、更にはヒットした書物も誤変換したものをヒットしている可能性があることを念頭に置いて検索結果を見る必要があるということになります。また、OCR結果だけを頼りに「崩し字」の本文を読み進めるのは、現時点では意味の取れない箇所が多々あるために無理があり、都度原文を参照してOCR結果を確認しながら読む必要があります。
ともあれ、今後更にOCRの精度が向上して「崩し字」の知識が充分ではなくてもOCR結果を信頼して読める程度になる時代が来るのに期待したいところです。