fc2ブログ

国立国会図書館「次世代デジタルライブラリー」のOCR結果について

11月8日に国立国会図書館からこの様なお知らせが発表されました。



次世代デジタルライブラリー」について、NDLラボのサイトでは

次世代デジタルライブラリーは、国立国会図書館次世代システム開発研究室での研究を基に開発した機能を実装した実験的な検索サービスです。全文テキスト検索機能や機械学習を用いた自動処理、International Image Interoperability Framework(IIIF) API等の技術的有効性を検証することを目的としています。

と紹介されており、現在「国立国会図書館デジタルコレクション」で公開されている著作権切れの図書や古典籍資料の全文検索や画像検索機能が試験的に公開されています。

今回のお知らせに併せて公開された機能では、上記ツイートにある様にオレンジ色の長方形でテキストとして認識された箇所が表示され、更にその長方形の上にマウスカーソルを持っていくと、その長方形内のテキストのOCR結果が表示されます。そこでマウスをクリックすると、OCR結果のテキストがコピーされます。

どちらかと言うとこの機能は、蔵書の全文検索を実現する過程で実現した副産物的な機能なのでしょうが、OCRの結果が実際のテキストと比べて問題ないものとなっているかを確認する上では必要なものと言えます。この様な形で表示されることで、どの箇所がOCRに認識されているのかが可視化され、結果との結びつきがわかりやすくなっています。

次世代デジタルライブラリー「鎌倉椿」検索結果〜「新編相模国風土記稿」該当ページ
「鎌倉椿」検索結果から
鳥跡蟹行社版「新編相模国風土記稿」該当ページ
青いマーカーが「鎌倉椿」の位置を示している
次世代デジタルライブラリー「鎌倉椿」検索結果〜「新編相模国風土記稿」該当ページ矩形表示
左のページで「矩形ごとにテキスト表示」ボタンを
クリックしたところ
複雑な構成の行でもOCRが追随出来ている

次世代デジタルライブラリー「鎌倉椿」検索結果〜「新編相模国風土記稿」該当箇所拡大
活字がかなり潰れた印刷物でも
テキストをかなり精度高く解読出来ている
(何れも「次世代デジタルライブラリー」
よりスクリーンキャプチャ)
OCRの精度に関しては、近代以降の活字による印刷物の場合にはかなり有効に機能している様です。ここに掲げた3枚の例は、「次世代デジタルライブラリー」で「鎌倉椿」を検索した結果ヒットした資料の中から、鳥跡蟹行社版の「新編相模国風土記稿」(以下「風土記稿」)の該当箇所を含んだページのものです。近世の頃からの習慣で見出しの下に小活字を2行収める複雑な行組が用いられている上に、活字がかなり潰れているにも拘らず、かなりの精度で行を追って文字を解読出来ており、その点ではかなり良好な成績を収めていると言えそうです。但し、見出しの次に本来右の行を読みに行かなければいけないところ、左の行へ続いて読みに行ってしまっているところは、現段階での限界とも言えます。


一方、上記ツイートの画像では近世の手書きと見られる文書の「崩し字」を解読した結果を表示しています。私も崩し字で書かれた資料を数点確認しましたが、それほど崩し字の解読能力のない私の目でもOCR結果の誤りを1ページ当たり数点程度ずつ確認できる結果に留まっていました。

この件について、誤変換を報告する窓口がないのかNDLラボの担当者宛にメールで問い合わせてみたところ、現時点では開発途上のサーバを試験運用している段階であることから報告を受け付けていないとの返事を受け取りました。しかし同時に、問い合わせた際に送った誤変換箇所についてはAIの学習がまだあまり進んでいない時点での変換結果であったことから、最新の学習結果をもとに改めてOCRをやり直したとのことで改めて意見を求められました。該当箇所については確かに誤変換は解消していましたが、他の箇所では誤変換が解消していない箇所もまだ各ページ毎に残っている状態でした。

現在はまだ開発途上とのことですので、この記事中で具体的に該当箇所を公開することは避けますが、現時点の変換結果について意見を求められたため、現段階では解題などである程度の予備知識を持って読み解ける人が「OCRの精度に充分でない部分がある」という意識をもって使う分には助けになるが、少なくとも、予備知識のない人にも幅広く使用を勧めるのはためらわれるのが正直なところだという意見を率直に伝えました。

先方からのメールによれば、現状ではAIが学習する例が限られてしまう登場回数の少ない字では誤変換の可能性が増えてしまうこと、また縦書きで連続的に書かれる崩し字の特性上から、特に「翁」「曽」の様な偏旁が上下に分かれる様な形の漢字を正しく1字として認識できずに複数の字として誤認してしまう例への対応に苦慮しているとの状況を伝えて戴きました。

その点では、この「次世代デジタルライブラリー」については現状はまだ開発途上であることを充分に認識して利用するべきと言えます。上記の「鎌倉椿」の例の様に、これまでの検索ではヒットしなかった書物も全文検索で新たにヒットする可能性はあるとは言え、OCRの精度の制約から検索キーが含まれる「全ての」書物を漏れなくヒットできる状態ではないこと、更にはヒットした書物も誤変換したものをヒットしている可能性があることを念頭に置いて検索結果を見る必要があるということになります。また、OCR結果だけを頼りに「崩し字」の本文を読み進めるのは、現時点では意味の取れない箇所が多々あるために無理があり、都度原文を参照してOCR結果を確認しながら読む必要があります。

ともあれ、今後更にOCRの精度が向上して「崩し字」の知識が充分ではなくてもOCR結果を信頼して読める程度になる時代が来るのに期待したいところです。



  • にほんブログ村 歴史ブログ 地方・郷土史へ
  • にほんブログ村 地域生活(街) 関東ブログ 神奈川県情報へ
  • にほんブログ村 アウトドアブログ 自然観察へ

↑「にほんブログ村」ランキングに参加中です。
ご関心のあるジャンルのリンクをどれか1つクリックしていただければ幸いです(1日1クリック分が反映します)。

地誌のはざまに - にほんブログ村

この記事へのコメント

トラックバック

URL :