用語集★『歴史情報学の教科書』全文公開
Tweet用語集
※本文中に出てくる専門用語や、補足が必要な用語を解説します。
■あ
青空文庫 著作権が消滅した作品や著者が許諾した作品のテキストを公開しているインターネット上の電子図書館。編集者の富田倫生らが発起人となって1998年に活動を開始し、2019年時点では14,000点以上の作品が青空文庫のWebサイト(https://www.aozora.gr.jp/)上で公開されている。
■か
コンピュータビジョン コンピューターを利用した画像認識技術およびそれを研究する分野の総称。
■さ
時間解像度 連続した存在である時間を、コンピューター上の離散的なデータとしてどれだけ細密に表現できるかを示す精度のこと。
時間情報システムHuTime HuTimeプロジェクトが開発する時間情報解析ソフトウエア。年表や時系列グラフの表示、時間に基づくデータの抽出など、時間情報の処理や分析に関わる多彩な機能を提供する(http://www.hutime.jp/)。
射影変換行列 画像に対する幾何学的変換のひとつ。射影変換を適用することで、例えば横方向から撮影した紙面の画像を、真正面から撮影したように補正することができる。射影変換行列とは、画像データを行列データとみなした際に、射影変換の操作を表現する行列のこと。
セマンティックギャップ 現実世界において人間が理解する意味内容(セマンティクス)と、コンピューター上で世界をモデル化したデータとの間に存在する大きな差異(ギャップ)のこと。例えばデジタルカメラで撮影した写真に対して、人間は容易にその内容を理解し言葉(意味)で表現できるが、コンピューターはその内容をピクセル列のデータとして分析するため、人間と同様の意味的記述を与えることにはさまざまな技術的困難がともなう。
セマンティックWeb技術 Webページの意味(セマンティクス)をコンピューターに理解可能なかたちで記述することを目的にした技術の総称。World Wide Webの発明者であるティム・バーナーズ=リーによって提唱された。
■た
ダブリンコア(Dublin Core) デジタルデータのメタデータを記述するための語彙のセット。1995年に米国オハイオ州のダブリンで開催されたワークショップで提案された。"Title"や"Creator"など、メタデータを記述する15種類の基本語彙によって構成されている(http://dublincore.org/)。
特徴量ベクトル 画像や映像、テキストなどのデータを要約する特徴量(feature value)をベクトル表現したもの。画像認識でよく用いられる特徴量にはSIFT、SURFなどがある。特徴量をベクトル化することで、データ間の類似度を計算したり、似た特徴を持つデータをクラスタリングしたりするなどの操作が可能になる。
■は
ハミング距離 情報理論の用語で、同じ文字数からなるふたつの文字列の中で、対応する位置にある異なる文字の個数のこと。例えば「11011」と「10001」という文字列のハミング距離は2である(2番目と4番目の文字が異なる)。
パラレルコーパス ひとつの事柄について記述された言語や表記などが異なるふたつ以上のテクストを、文単位もしくは段落単位で対応させて構築したコーパス。
ピア・プロダクション(peer production) 互いに対等な個人が構成するコミュニティの活動を通じて、何らかの製品やサービスを開発すること。ハーバード・ロースクールの法学者ヨハイ・ベンクラーがインターネット時代の新しい知的生産の形態として提唱した。LinuxやWikipediaはピア・プロダクションの代表としてあげられる。マスコラボレーション(mass collaboration)とも。
分散型コラボレーション(distributed collaboration) インターネットを駆使することで、多数の人びとが場所的制約にとらわれず特定の目的の達成のために協力すること。
■A
API Application Protocol Interface.あるプログラムの機能を外部のプログラムから利用するために用意されたインターフェイス(窓口)のこと。
ArcGIS ESRI社が開発・販売している地理情報システム(GIS)ソフトウエア。地理情報を収集、整理、管理、解析、伝達、配布するためのさまざまな機能を実装している(https://www.esrij.com/products/arcgis/)。
Awesome-IIIF IIIFに関連するツールやソフトウエアなどの情報をまとめたレポジトリ(情報の集積所)。ソースコード共有サービスのGitHub上で公開されている(https://github.com/IIIF/awesome-iiif)。
■B
BRIEF Binary Robust Independent Elementary Features.画像データの特徴を記述する手法のひとつ。浮動小数点数ではなく二値コード列を使って特徴を記述する。二値コード列のハミング距離は高速に計算可能であるため、画像データ間のマッチングを高速に実行できる。
byobu.exe 2001年に歴博が開発した超大画像自在閲覧システム。Windows上で動くアプリケーション。2000年に開発した「超拡大!江戸図屛風」を汎用化したもの。DeepZoomと同様に、倍率ごとに用意されたタイル画像を用いて、高精細画像を表示する。
byobu32x.ocx 2007年に歴博が開発した超大画像自在閲覧システム。Internet Explorer上のActive Xプラグインとして動作する。歴博総合展示第3展示室において高精細画像を含むデジタルコンテンツを提供するために開発した。画面レイアウトをかなり自由にカスタマイズすることができる。高精細画像のデータ形式はbyobu.exeと同一。
■C
core Builder メリーランド大学において開発されているXMLの編集ツール。特にTEI準拠のマークアップをWebブラウザ上でメニュー選択操作で行うことができる(https://github.com/raffazizzi/coreBuilder)。
Creative Commons(CC) クリエイティブ・コモンズは、クリエイティブ・コモンズ・ライセンス(CCライセンス)を提供している国際的非営利組織とそのプロジェクトの総称。CCライセンスは、著作権のあるコンテンツを新たなかたちで利用させるためのツール。CC0以下合計7種類のライセンスが提供されている(https://creativecommons.org/)。
CWRC writer Canadian Writing Research Collaboratory(CWRC)が開発しているWYSIWYG(What You See Is What You Get)のXMLエディター。Webブラウザ上でXMLの文書を編集することが可能(https://github.com/cwrc/CWRC-WriterBase)。
■D
DCMI Metadata Terms ごく基本的なメタデータしか表現できないダブリンコアを拡張するために提案されたメタデータ記述のための語彙セット。ダブリンコアの語彙も含めた55種類の語彙によって構成される。
DeepZoom Microsoftによって開発された、Webブラウザ上で高精細画像をスムーズに表示するための技術。画像を倍率ごとにタイル状に分割することで、ネットワーク通信量を抑えながら高精細画像の表示を可能にしている(https://www.microsoft.com/silverlight/deep-zoom/)。
DOI デジタルオブジェクト識別子(Digital Object Identifier)。Web上のデジタルデータに与えられる識別子。この識別子を付与することで、ユーザーと提供者の間にDOIディレクトリを経由させることができ、それによりデータのURLが変更されてリンク切れになるなどの事態を防ぐことができる。
■E
EAD 符号化記録史料記述(Encoded Archival Description)。アーカイブズ資料の目録記述を電子符号化する方法の国際標準。XML・SGMLを使用して資料のメタデータを記述する(https://www.loc.gov/ead/)。
■F
FAST Features from Accelerated Segment Test.画像データ中の特徴的な箇所を検出するアルゴリズムのひとつ。与えられた画像に含まれるコーナーを高速に検出することができる。
FOAF Friend of a Friend.人とその交友関係についての諸情報を機械可読形式で記述することを目指す実験的なプロジェクト。http://www.foaf-project.org で運営されており、RDFを含むセマンティックWebの基礎技術が用いられている。
■G
GitHub 分散ソースコード管理システムであるgitをベースにしたソースコード共有サービス。Linuxを含むさまざまなオープンソース・プロジェクトがGitHubを利用している。2018年にMicrosoft社によって買収された(https://github.co.jp/)。
■H
HuTime暦変換サービス HuTimeプロジェクトが提供する機能のひとつ。和暦や西暦など、異なる暦で示された時間情報を相互に変換することができる(http://www.hutime.jp/basicdata/calendar/form.html)。
■I
IIIF International Image Interoperability Framework.デジタルアーカイブにおいて公開される画像にアクセスするための標準的APIを定める国際標準。デジタルアーカイブの画像資料は、公開機関によってバラバラな形式で提供されていたが、2011年に大英図書館やスタンフォード大学などの共同作業を通じて、画像データに対する標準的なアクセスを定めるIIIFのバージョン1.0が公開された。画像データへのアクセス手段を与えるImage API、書誌データやアノテーションも含めたデータ公開形式を定めるPresentation APIなど、2019年時点で4つのAPIによって構成されている(https://iiif.io/)。
IRG Ideographic Rapporteur Group. ISO/IEC 10646およびUnicodeへの漢字の追加に対して検討を行う専門家のグループ。中国、日本、韓国を含む漢字使用国から招待された専門家により構成される。
ISAD(G) 国際標準記録史料記述(General International Standard Archival Description)。アーカイブズ資料目録記述の国際標準であり、第1版は1994年に国際文書館評議会(International Council on Archives; ICA)の記述標準特別委員会にて採択された。現行の第2版(ISAD(G)2nd)は2000年9月に行われたICA国際会議にて採択された(https://www.ica.org/en/isadg-general-international-standard-archival-description-second-edition)。
ISO/IEC 10646 電子符号化方式や符号化文字集合などを定める文字コードの国際標準規格。業界規格であるUnicodeと互換性を持つ。
■J
JSONフォーマット JavaScript Object Notation.プログラミング言語のJavaScriptでデータをテキスト表現する際に利用されるフォーマット。Web上のデータ交換フォーマットとしてXMLと並んで広く利用される。
■K
KMNIST 2018年に人文学オープンデータ共同利用センター(CODH)が公開した、「くずし字」の文字画像データセット(Kuzushiji-MNIST)。MNISTと互換性のある形式で公開されており、機械学習研究に容易に利用することができる(http://codh.rois.ac.jp/kmnist/)。
■L
Linked Open Data 構造化されたデータ同士をURIを介して「リンク」させたデータをLinked Data(LD)と呼ぶ。Linked Open Data(LOD)とは、Linked Dataのうち、Creative Commonsなどのオープンライセンスで提供されるデータを指す(http://linkeddata.org/)。
■M
MARC 機械可読目録(MAchine-Readable Cataloging)。図書館資料の目録を電子化するための国際的標準フォーマット。
Meidawiki ユーザーによるWebページの内容編集を可能にするウィキシステムのひとつ。Wikipediaおよびその姉妹プロジェクトで利用されている(https://www.mediawiki.org)。
Mirador スタンフォード大学を中心に開発されているオープンソースのIIIF画像ビューワー。https://projectmirador.org で公開されている。
MNISTデータセット 機械学習の分野で画像認識のタスクに用いられるデータセットのひとつ。7万枚の手書き文字の数字画像から構成される(http://codh.rois.ac.jp/kmnist/)。
■O
OAISモデル Reference Model for an Open Archival Information System.コンテンツに合わせて表現情報・コンテクスト情報・来歴情報・不変性情報などを同時に保存してひとつの情報パッケージとして理解する。そしてこの情報パッケージを流通の段階ごとに制御し、変更の情報やコンテンツの関連情報を同時に記録することを通じて、データを長く保存することを目指したモデル。
OCR 光学文字認識(Optical Character Recognition)。印刷された文書をスキャンし、そこに書かれている文字を電子テキストに変換する技術およびソフトウエアのこと。
Omeka 図書館、博物館、美術館などのWeb展示を作成するためのコンテンツマネジメントシステム(CMS)。https://omeka.org で公開されている。
Open Annotation Web上のリソースにアノテーションを付与する方式やそのデータモデルについて検討を行っていた、標準化団体W3C下のコミュニティ・グループ。2013年に活動を停止し、その活動は同じくW3C下のWeb Annotationワーキンググループに引き継がれた。
OpenCV コンピュータビジョンの分野で広く使用されているオープンソースのライブラリ(ライブラリとは、頻繁に利用されるプログラム中の処理をパッケージし、共有可能にしたもの)。画像認識分野で使用されるさまざまなアルゴリズムが標準機能として実装されている。
OpenSeadragon DeepZoom形式の画像ファイルの表示に対応したJavaScriptライブラリ。Microsoft社によって開発されていたがオープンソース化された(https://openseadragon.github.io/)。
Oxygen XML Editor Syncro Soft社によって開発されている高機能なXML編集用ソフトウエア。TEIテクストの編集を支援するさまざまな機能を提供しており、TEIコミュニティでは広く使用されている(https://www.oxygenxml.com/)。
■P
Presentation AP IIIIFを構成するAPIのひとつ。画像資料の公開形式を「マニフェスト」と呼ばれるJSON-LD形式のファイルによって指定する(https://iiif.io/api/presentation/2.1/)。
■Q
QGIS 地理情報システム(GIS)ソフトウエアのひとつで、地理情報の閲覧、編集、分析が可能。オープンソースのソフトウエアであり、無償で利用することができる(https://www.qgis.org/)。
■R
RANSAC RANdom SAmple Consensus. 与えられた観測値に外れ値が含まれる可能性を考慮し、その影響を最小限に抑えるための「ロバスト推定」を実現するアルゴリズムのひとつ。
RDF Resource Description Framework. Web上のメタデータを記述するために用いられる汎用データモデル。主語-述語-目的語の組である「トリプル」によってメタデータを表現する。セマンティックWebの基礎技術のひとつ。RDF/XML、TTL、JSON-LD、Linked.art JSON-LD、KML、GeoJSON、IIIF Manifestという計8種類のデータ形式
Rights Statement DPLAとEuropeanaによって作成された権利のあり方を示す表記。CCが著作権のライセンスを示すのに対し、Rightsstatementsは権利がどのような状態になっているかを端的に示すものとして用いられる。著作権の有無(不明を含む)、それ以外の権利制限の有無などを示すことができる(Rights Statement.org)。
■S
Script Encoding Initiative 少数民族が使用するマイナーな文字や、歴史的な書記体系で使用されていた文字のUnicodeへの登録をサポートする団体。カリフォルニア大学バークレー校の言語学部を拠点として活動している(http://www.linguistics.berkeley.edu/sei/index.html)。
■T
TAPAS TEIテクストを保存・公開するための共用レポジトリ。TEIコンソーシアムや米国博物館・図書館サービス機構(IMLS)、全米人文学基金(NEH)などの助成のもと運営されている(http://www.tapasproject.org)。
TEI Text Encoding Initiative.文学作品や歴史資料などの人文学資料をXMLでエンコード(符号化)する際のガイドラインを策定する団体およびこの団体によるガイドライン(https://tei-c.org/)。
TEILib Best Practices for TEI in Libraries.図書館においてTEI準拠のテキストデータを作成するためのガイドライン。
Transcribe Bentham 功利主義の提唱者として知られる哲学者J. ベンサム(1748-1832)による60,000ページに及ぶ全集未収録の遺稿を、ボランティアの手によりオンラインで文字起こしするプロジェクト。ユニバーシティー・カレッジ・ロンドン(UCL)によって運営されている。
■U
Unicode 文字の電子符号化方式や符号化文字集合を定めた文字コードの業界規格。日本語を含む世界中の文字体系に対応しており、2019年時点の最新バージョンであるUnicdoe 12.0は、150言語にわたる137,993文字をカバーしている。Unicodeの管理運営はユニコード・コンソーシアムによって担われている。
URI Universal Resource Identifier.インターネット上に存在するリソース(資源)を指し示すための識別子。リソースの「場所」を指し示すURL(Universal Resource Locator)の概念を拡張したもの。
■X
XML eXtendsiblee Markup Language.任意の用途について拡張可能なマークアップ言語。Web上のデータ交換の標準フォーマットとして広く利用されている。その前身であるSGMLからの移行を目的として開発され、1998年に最初の仕様が策定された。
■Z
Zoomify Zoomify社が提供する高精細画像をWebブラウザ上でスムーズに表示するためのJavaScriptライブラリ。簡便なビューワーは無料で使える。画像の作成環境やカスタマイズ可能なソースコード、技術サポートなどの提供は有料。PhotoShopはZoomfy形式画像の作成機能を持っており、高精細画像を手軽に作成することができる(http://www.zoomify.com/)。
------
【全体目次】
ご挨拶○新たな学の創成に向けて(久留島 浩)
はじめに(後藤 真)
chapter1 人文情報学と歴史学
後藤 真(国立歴史民俗博物館)
chapter2 歴史データをつなぐこと―目録データ―
山田太造(東京大学史料編纂所)
chapter3 歴史データをつなぐこと―画像データ―
中村 覚(東京大学情報基盤センター)
●column.1 画像データの分析から歴史を探る―「武鑑全集」における「差読」の可能性―
北本朝展(ROIS-DS人文学オープンデータ共同利用センター/国立情報学研究所)
chapter4 歴史データをひらくこと―オープンデータ―
橋本雄太(国立歴史民俗博物館)
chapter5 歴史データをひらくこと―クラウドの可能性―
橋本雄太(国立歴史民俗博物館)
chapter6 歴史データはどのように使うのか―災害時の歴史文化資料と情報―
天野真志(国立歴史民俗博物館)
●column.2 歴史データにおける時空間情報の活用
関野 樹(国際日本文化研究センター)
chapter7 歴史データはどのように使うのか―博物館展示とデジタルデータ―
鈴木卓治(国立歴史民俗博物館)
chapter8 歴史データのさまざまな応用―Text Encoding Initiative の現在―
永崎研宣(人文情報学研究所)
chapter9 デジタルアーカイブの現在とデータ持続性
後藤 真(国立歴史民俗博物館)
●column.3 さわれる文化財レプリカとお身代わり仏像―3Dデータで歴史と信仰の継承を支える―
大河内智之(和歌山県立博物館)
chapter10 歴史情報学の未来
後藤 真(国立歴史民俗博物館)
おわりに