視覚資料を研究資源にする
第13回 コーパス演習(2026年度)
人文学の研究において、文字資料(テキスト)だけでなく視覚資料(画像)を対象とすることには大きな意義があります。文章による記録には限界があり、伝えきれない情報や文脈がありますが、それを補完する手段として画像による視覚情報が必要となる場面も少なくありません。
デジタル技術の進展により、膨大な視覚資料がオンラインで利用可能になりつつあります。図書館や美術館の所蔵品の高精細デジタル画像が公開され、文化資料を「大量」に分析する試みも始まっています。従来、人文学におけるデータ分析はテキスト中心でしたが(いわゆる「ディスタント・リーディング」など)、近年では大規模な画像コーパスを計算機で解析する「ディスタント・ビューイング(distant viewing)」という手法論も提唱されています。
総じて、視覚資料を研究資源にする意義は大きく二つあります。一つは、テキスト資料の記述を補完し、より立体的で実証的な議論を可能にすることです。もう一つは、美術作品や写真・映像といった視覚文化そのものを分析対象に含め、人文学の射程を広げることです。
13.2.1 ディスタント・リーディングからディスタント・ビューイングへ
コンピュータビジョン(Computer Vision)技術を活用して、デジタル化された大量の画像資料を計量的に分析する手法は、近年「ディスタント・ビューイング」(distant viewing)と呼ばれる概念として提唱されています。この用語は、文学研究における Franco Moretti の「ディスタント・リーディング」にならったものであり、大規模なデータを「遠くから」俯瞰することで新たな知見を得ようとするアプローチです。
Arnold と Tilton は 2010年代からこの手法の理論と方法論を発展させており、2023年に著書『Distant Viewing』を発表しました。同書では、コンピュータビジョンを「視覚的メッセージの研究手法」として用いることの方法論的・認識論的含意を探究しており、画像資料を計算機で分析する際に生じる解釈の問題に焦点を当てています。彼らによれば、人間が画像を見る行為=解釈が不可避であり、画像から意味を抽出する過程自体が解釈的であることを明示的に認識する点にこの手法の特徴があります。
13.2.2 対象分野と分析対象の広がり
distant viewing の適用される分野は多岐にわたり、歴史的写真アーカイブ、美術作品の画像データ、映画・映像メディア、広告やポスターなどの視覚資料、さらにはソーシャルメディア上の画像にまで広がっています。
歴史写真アーカイブの分析
例えば米国の FSA-OWI ドキュメンタリー写真コレクション(1935〜43年、約17万点)に対し、Arnold と Tilton は InceptionV3 モデルの内部レイヤーを用いて各写真を特徴ベクトルに圧縮し、画像の類似度に基づくクラスタリングを試みました。その結果、撮影年や担当写真家が異なっていても同じ主たる対象を撮影した写真が、撮影年や撮影地、担当写真家が異なっていてもしばしば近傍に集まった点です。さらに写真家間の視覚的距離をネットワークとして可視化し、歴史的事実と合致する興味深い関係性が浮かび上がりました。
美術作品の数量的な比較
美術史においても、画像データの包括的分析によって作品群の傾向を数量的に把握する試みが現れています。Bender は "distant viewing in art history" と題した研究で、大規模な美術作品データセット上の主題選択の変遷を分析しました。例えばヴィーナスを主題とする作品数の推移を地域ごとに比べた結果、19世紀における神話画衰退の度合いが国によって大きく異なることが明らかとなりました。
映画・映像メディアへの応用
Arnold と Tilton は1960年代のシチュエーション・コメディ2作品(『奥さまは魔女』と『かわいい魔女ジニー』)を対象に、映像そのものをコンピュータで分析するケーススタディを報告しています。キャラクターごとの出演シーン数や画面上の存在時間を計測することで、物語における役割の違いを比較しました。その結果、両シリーズの主人公女性キャラクターの描かれ方に作品ごとの特徴が浮かび上がりました。
ソーシャルメディア画像の分析
近年では、Instagram 等の写真共有プラットフォームに対しても大規模視覚分析が行われています。その一例が Lev Manovich らによる Selfiecity プロジェクトです。世界5都市で共有された「自撮り(selfie)」写真3200枚を収集し、自動顔解析と人手評価を組み合わせてデータ化しました。分析から明らかになった結果の一つは、自撮り写真の投稿者には女性が男性よりも顕著に多いこと、また都市ごとの傾向として笑顔の度合い(顔の微笑スコア)が非常に高く、さらに女性は男性よりも顕著に頭部を傾けたポーズをとる傾向が強い、といった文化差も見出されました。
13.2.3 ディスタント・ビューイングに用いられる技術的手法
Arnold と Tilton はその手法を「注釈、編成、探索、伝達」の4段階に整理しています。まず研究目的に応じて画像から抽出すべき要素を決め(例:顔の有無・人物の性別、物体カテゴリ、主要な色相など)、コンピュータビジョン技術によって全画像からこれらメタデータを生成します。次に得られたデータを既存の付帯情報(撮影年や作者などのメタデータ)と組み合わせ整理(編成)し、統計解析や可視化によってパターンを探索します。
画像分類と物体検出
画像に写っている物体やシーンの種類を自動判別する技術で、深層学習の畳み込みニューラルネットワーク(CNN)モデルによって近年飛躍的に精度が向上しました。FSA 写真の事例では、ImageNet データで学習した汎用物体認識モデル(InceptionV3)の内部表現を利用し、画像ごとの特徴ベクトルを算出しています。
顔検出・顔認識
人物が写った写真や映像では、顔を自動検出して人物ごとに識別・集計することで、その出現頻度や画面占有時間を測定できます。先述のテレビ番組の研究では、オープンソースの顔解析ツールキット(例:OpenFace)を用いて各ショット中の顔位置を検出し、クラスタリングによって同一人物を識別する手法が取られました。
特徴量抽出と次元圧縮
画像から色、形状、テクスチャなどの定量的特徴を計算し、高次元ベクトルで表現した上で、主成分分析や t-SNE といった手法で2次元マップに可視化することで、データ全体の分布傾向を俯瞰できます。Manovich の Selfiecity では、顔の向きや微笑の強さ等の数値を自動取得し、都市ごとの分布を比較しています。
注意点:技術のバイアス
Arnold と Tilton は、既存のコンピュータビジョン技術の多くが軍事や監視目的で開発されてきた経緯や、現代の写真で訓練されたモデルをそのまま歴史資料に適用する際の問題を指摘しています。例えば白黒写真で学習したカラー写真用の物体認識モデルでは性能が十分でない場合があること、顔認識でも訓練データが偏っていれば特定の人種・性別に対する精度が異なる可能性があることが報告されています。
13.2.5 人文学研究における理論的意義と批判的検討
ディスタント・ビューイングの理論的意義は大きく分けて二つあります。第一に、人文学の射程を広げる方法論的挑戦としての意義です。視覚文化研究や美術史・映画研究において、作品一点ごとの詳細な「読む」作業に加え、コーパス全体を巨視的に「見る」ことで初めて見いだせる現象があることを示しました。
第二に、人間による解釈と計算機による分析の協働という点での意義があります。Arnold と Tilton は、画像を計算機で分析する際にも暗黙のうちに解釈が入り込むことを強調し、むしろ人文学の知見を用いて積極的に注釈スキーマを設計することを提唱しました。
しかし一方で、批判的な検討も必要です。Moretti が「全体を数量的に見ることで失われるものはないか」と述べたように、巨視的分析は細部の文脈や作品固有の意味を捨象するリスクがあります。遠隔と近接(distant vs. close)のバランスが重要であり、計算機が示したパターンを人文学の文脈で意味づけるプロセスが欠かせません。
デジタル時代に大量の画像を活用するには、標準化された仕組みが重要です。IIIF(International Image Interoperability Framework)は、まさに画像データの標準化と相互運用を目的とした国際的な枠組みです。
IIIF Image API による画像配信
Image API は、ウェブ上で画像を表示・操作するための統一的な画像取得方法を定めた API 仕様です。画像サーバに対して HTTP リクエストで URL パラメータを指定することで、画像の一部分(領域)や縮小画像、回転画像、白黒画像など、種々のバリエーションの画像データを取得できます。
https://{画像サーバ}/{識別子}/{領域}/{サイズ}/{回転角度}/{画質}.{形式}
例えば /full/full/0/default.jpg は「画像全体をオリジナルサイズで、0度回転、デフォルト画質の JPEG 形式で取得する」ことを意味します。
IIIF Presentation API とマニフェストの構造
Presentation API は、画像を含むデジタルオブジェクトの構造や基本的なメタデータを記述し、ビューワでの表示方法を定めるための API 仕様です。中心概念がマニフェスト(manifest)と呼ばれる JSON-LD 形式のドキュメントで、これが一つのオブジェクト(例えば一冊の書物、一枚の絵画、一冊の写真アルバム等)を記述します。マニフェストには、そのオブジェクトに含まれる画像群の構造(ページ順序や章立てなど)や、基本的な書誌メタデータ(タイトル、作成者、年代、ライセンス情報等)が含まれています。
要約すれば、マニフェストは「あるオブジェクトの基本メタデータ」と「中身の画像群の構造および画像への参照」をひとまとめに記述したものと言えます。この統一形式により、異なる機関の画像資料であってもマニフェストさえ取得すれば共通の方法で扱える利点があります。
IIIF ビューワの活用
IIIF のもう一つの重要要素は、対応するビューワ(viewer)です。代表的な汎用ビューワには Mirador や Universal Viewer、OpenSeaDragon(IIIF 対応版)などがあります。これらを用いると、IIIF マニフェストさえ指定すれば、画像コレクションをページめくり形式で閲覧したり、ズームや回転、明るさ調整、比較表示(複数の画像を並べて比較)などの操作が可能です。特に Mirador は、複数の IIIF マニフェストを同時に読み込み、別々のコレクションからの画像を並べて比較検討するといった高度な使い方もできます。
13.4.1 IIIF 公開 API の事例紹介
国立国会図書館(NDL)
日本の代表的な IIIF 対応データベース。デジタルコレクションでは公開資料について IIIF マニフェストが提供されており、書籍や古典籍の高精細画像を取得できます。明治・大正期の書籍から浮世絵、古写真まで多様な資料が含まれ、数十万点規模の画像を IIIF 経由で利用可能です。
ワーバーグ研究所(Warburg Institute)
イコノグラフィック・データベースも IIIF に対応した重要なリソース。同データベースは主に西洋美術の主題分類にもとづき画像が整理されており、古典神話や歴史、日常生活、宗教寓意などのカテゴリ別に検索・閲覧できます。登録画像数は写真コレクションからの約8万点とその他2万点、計10万点ほどにのぼります。
メトロポリタン美術館(The MET)
オープンアクセス戦略の一環として、所蔵美術品画像の大量公開を行っている代表的な美術館。MET の Open Access プログラムでは、40万点を超える所蔵美術品の高解像度画像がパブリックドメインとして公開され、誰でも利用可能です。
上記以外にも、ヨーロッパの美術館・図書館には IIIF 対応が急速に広まっています。大英図書館(British Library)、フランス国立図書館(BnF)、米国議会図書館(Library of Congress)なども IIIF マニフェストを提供しています。また日本国内でも、国文学研究資料館の古典籍資料や東京国立博物館の所蔵品画像などが IIIF で公開されています。
13.4.2 IIIF マニフェストの取得と解読方法
具体的に IIIF から画像を収集するには、まず目当ての資料のマニフェスト URL を取得する必要があります。マニフェストは JSON 形式で提供されているため、ウェブブラウザで直接内容を確認することもできますし、Python などを用いてプログラム的に処理することも可能です。
import requests, json
# マニフェスト URL を取得
url = "https://dl.ndl.go.jp/api/iiif/1234567/manifest.json"
res = requests.get(url)
# マニフェスト JSON を Python の辞書オブジェクトに変換
manifest = res.json()
# タイトルを取得
title = manifest.get("label", "No Title")
# 最初のキャンバスに含まれる画像 ID を取得
canvas0 = manifest["sequences"][0]["canvases"][0]
image_id = canvas0["images"][0]["resource"]["@id"]
13.4.3 画像整理(メタデータ付きの構造化保存)とフォルダ管理法
収集した大量の画像は、適切に整理・管理しないと後の分析や引用の際に混乱してしまいます。基本は、「画像とメタデータを紐付けて保存する」ことです。画像ファイルそのものには撮影年や出典といった情報は含まれていません。したがって、ダウンロードした画像には人力またはプログラムで分かりやすいファイル名を付けるか、もしくは別途メタデータファイル(CSV や JSON、あるいは Excel シート等)に画像ファイル名と対応する属性情報を記録しておく必要があります。
フォルダ構成も工夫が必要です。資料をその出典機関やコレクションごとにフォルダ分けする方法や、研究テーマごとに分ける方法があります。最後にバックアップも重要です。せっかく収集・整理した画像データセットが消失しないよう、外部ストレージやクラウドにバックアップを取っておきましょう。
最後に、視覚資料を研究に活用する際の解釈上・倫理上の留意点について触れておきます。画像は強力な情報源ですが、その利用には慎重な姿勢が求められます。