みんなで翻刻の最新版ダンプデータがgithubにアップ【2019年7月の新バージョン公開以降翻刻された1400万文字の文字データ】【元資料画像のURLを記したCSVファイルも同梱】
Tweetみんなで翻刻の最新版ダンプデータをgithubにアップしました。2019年7月の新バージョン公開以降翻刻された1400万文字の文字データから構成されます。元資料画像のURLを記したCSVファイルも同梱しているので、機械学習用途に使用できるかもしれません。https://t.co/WJEvoW113y
— Yuta Hashimoto (@yuta1984) February 3, 2022
こんな具合に翻刻テキスト、メタデータ、元資料画像を辿れるはずです pic.twitter.com/APUES6bKJb
— Yuta Hashimoto (@yuta1984) February 3, 2022