次世代デジタルライブラリーAPIからの構造化テキストデータの提供について(国立国会図書館・NDLラボ)

●詳細はこちらから
https://lab.ndl.go.jp/news/2025/2025-08-26/
【これまで、著作権保護期間が満了した図書資料約28万点のOCRテキストデータについて、次世代デジタルライブラリーからダウンロード機能を提供してきましたが、 この度、データの利便性の改善を図るため、従来の形式にくわえて、段落やキャプション、タイトルといったレイアウト要素を備えた構造化テキストデータの提供を行います。
多段組や複雑なレイアウトの場合のテキストデータの読み順序についても改善しています。是非活用ください。】