コーパス研究の基礎と検索
第6回 人文学とデジタル技術(2026)
コーパス(大規模言語データベース)を人文学研究に活用することには、いくつか重要な意義があります。
再現性の向上
従来の人文学では、研究者ごとの解釈や直感に頼る部分が大きく、同じ資料から異なる解釈が生まれることもしばしばでした。コーパスを用いることで、誰もが同じデータにアクセスし、同じ検索手順を踏めば同様の結果を得られるため、研究結果の検証や追試が容易になります。
確証バイアスの回避
確証バイアスとは、自分の仮説に都合の良い事例ばかりを集めてしまう傾向のことです。コーパス上で網羅的にデータを観察すれば、恣意的に例を選ぶ余地が減り、仮説に合致する例だけでなく反証例も含めて客観的に検討できます。
解釈の根拠の可視化
コーパスから得られた結果(例えばある語の使用頻度や用例の一覧)は、解釈を裏付ける明確なエビデンスとなります。具体的なデータを示せるため、従来の曖昧な主観的判断に比べて説得力が増します。
このようにコーパスは、人文学を単に「データ化」する以上の意味を持っています。それは人文学を「解釈の学」から「実証の学」へと開き、データによる客観的観察と人間的な解釈とを統合する試みでもあります。
コーパス(Corpus)とは、現実に使用された大量の言語データを電子的に集積・構造化したデータベースのことです。テキストデータ(文章や会話の書き起こし)がコンピュータで検索・分析できる形で蓄えられており、日本語では「言語コーパス」などと呼ぶこともあります。典型的には数百万語から数億語規模にも及ぶ自然言語の用例を含み、言語学の研究、辞書や文法書の編纂、言語教育などで重要なリソースとして活用されています。
コーパスには様々な種類があり、構築方法や用途によって分類できます。
均衡コーパス(Balanced Corpus)
あらかじめコーパスの規模や収集範囲を定め、言語全体を代表するように多様なジャンルからバランスよくデータを集めて構築されたコーパス。言語のスナップショットであり、特定の時期・領域の言語使用を偏りなく反映することを目指します。典型例として英国英語の BNC(約1億語)や、日本語の BCCWJ(約1億語)があります。
モニターコーパス(Monitor Corpus)
継続的にデータが追加・更新されていく動的なコーパス。言語の変化を逐次「監視(モニター)」する目的で設計されており、新語の出現状況や語の使用頻度の変遷を追跡するのに向いています。例えばアメリカ英語の大型コーパスである COCA などがモニターコーパスに該当します。
アノテーション付きコーパス
原文テキストに品詞や構文構造、意味情報などの注釈(アノテーション)が付与されたコーパス。「名詞句に限定して検索する」「主語と目的語の関係を持つ文を抽出する」など高度な分析が可能です。代表例として英語の Penn Treebank や、日本語では BCCWJ(形態素・品詞情報付きで提供)などが挙げられます。
パラレルコーパス(Parallel Corpus)
二つ以上の言語で内容が対応しているテキストを対にして収録したコーパス。翻訳テキストの原文と訳文を揃えたもので、多言語の翻訳研究や機械翻訳の開発にしばしば用いられます。例えば Europarl コーパスは典型的なパラレルコーパスです。
専門分野コーパス(ドメインコーパス)
特定の専門領域・ジャンルに特化してテキストを集めたコーパス。例えば医学論文だけを集めた医学英語コーパス、法律文書のコーパス、ある作家の全作品コーパスなど。人文学の研究者が自前でコーパスを構築する場合も、自分の研究対象に合わせたドメインコーパスを作るケースが多いでしょう。
学習者コーパス(Learner Corpus)
第二言語・外国語としてその言語を学ぶ学習者が実際に書いた作文や発話を収集したコーパス。非母語話者特有の誤用や中間言語の特徴をデータとして記録している点に特徴があり、応用言語学や言語教育の研究で重宝されます。
ウェブコーパス
インターネット上の大量のウェブページからテキストを収集して構築されたコーパス。圧倒的なデータ量と多様性を確保できるのが利点で、珍しい表現例や最新の流行語・専門語も見つけやすい魅力があります。一方で代表性の担保が難しい、品質管理の問題、著作権やプライバシーへの配慮も必要です。
大切なのは、自身の研究目的に合ったコーパスを選ぶことです。言語の現在の全体像を知りたいなら均衡コーパス、新語の出現を追跡したいならモニターコーパス、特定分野の表現を調べたいなら専門分野コーパス、といった具合に使い分けると良いでしょう。
実際にコーパスを選んだり自作したりする際には、いくつか考慮すべきポイントがあります。
コーパスを用いた研究スタイルには、大きく分けて二つのアプローチが存在します。
コーパス検証型(Corpus-based)
あらかじめ設定した理論や仮説をコーパスデータによって検証する手法です。研究者は分析前に「○○という表現は話し言葉で多用されるはずだ」「英語の受動態は書き言葉で頻出するだろう」といった仮説や問いを立て、それに基づきコーパス検索と結果分析を行います。
メリット:明確な問いに答える形で分析を進めるため結果の解釈がしやすく、エビデンスが直接仮説の支持・反証に結びつく。
デメリット:仮説にない現象は見落としがちになる。
コーパス駆動型(Corpus-driven)
明確な仮説を最初から持たず、コーパスデータそのものの中からパターンや法則を見出そうとする手法です。既存の理論にとらわれず大量のデータを観察し、そこから知見を導く「データ主導(ボトムアップ)」のアプローチになります。
メリット:予期しないパターンの発見につながりやすく、新しい言語事実や規則性を発掘できる。
デメリット:分析範囲が広大になり焦点が絞りにくい。膨大なパターンの中から意味のあるものを取捨選択して理論化するには熟練を要する。
アプローチの比較と統合
以上の二つのアプローチにはそれぞれ利点と欠点があり、相補的な関係にあります。コーパス検証型は演繹的(トップダウン)であり理論の検証に向いている一方、コーパス駆動型は帰納的(ボトムアップ)で新知見の発見に優れています。実際の研究では、両者を組み合わせることで互いの欠点を補うことが多いです。例えば、初めにコーパス駆動的にデータを探索して興味深いパターンを発見し、その後コーパス検証型の手法で追加データを用いて仮説を検証する、といった手順です。初心者のうちは、まずは検証型のように明確な問いを立ててコーパス分析を始めてみるのが取り組みやすいでしょう。
以上でコーパスの基礎知識と理論的背景を概観しました。ここからは実際にコーパスを検索・分析する手順を学びましょう。実習には、世界的に広く使われているコーパス検索ツールである Sketch Engine を中心に扱います。日本語コーパス向けのツールである国立国語研究所の「中納言」にも触れます。
Sketch Engine とは何か
Sketch Engine(スケッチエンジン)は、チェコの Lexical Computing 社が開発した強力なオンラインコーパス検索・分析ツールです。世界各国の言語コーパス(100以上の言語、500以上のコーパス)を収録しており、研究用途から商用まで幅広く利用されています。例えば英語の BNC や米語の COCA、日本語のコーパスとしてはウェブから収集した日本語ウェブコーパスなども含まれています。特徴的な機能として、Word Sketch と呼ばれるコロケーションの自動要約機能があり、ある単語の用法を「主語になる名詞一覧」「目的語になる名詞一覧」「修飾する形容詞一覧」など文法関係ごとにまとめて表示できます。
中納言(NINJAL 中納言)の紹介
日本語のコーパスを使いたい場合には、国立国語研究所が提供する「中納言」というウェブアプリケーションも有力な選択肢です。中納言は主に同研究所が構築した日本語コーパス(現代日本語書き言葉均衡コーパス=BCCWJ や日本語話し言葉コーパス=CSJ、日本語歴史コーパス=CHJ など)を検索するためのツールです。形態素解析済みのデータに対して、高度な検索(品詞や活用形を指定した検索など)が可能で、日本語研究者にとって貴重な環境です。
基本的な検索方法(フリーワード検索と CQL)
Sketch Engine では、大きく分けて二通りの検索方法があります。一つはキーワードをそのまま入力して検索する簡易な方法(フリーワード検索)、もう一つは CQL(Corpus Query Language)と呼ばれるクエリ言語を用いて高度な条件を指定する方法です。
フリーワード検索では、調べたい単語やフレーズを入力し Enter キーを押すだけで検索が実行されます。基本的には部分一致検索(understood なども含む)になります。
CQL では検索したい語や品詞を [ ] で囲んで指定します。例えば [lemma="understand"] と入力すると、見出し語が understand である単語、すなわち understand の任意の活用形(understands, understood, understanding など)をまとめて検索できます。また [word="understand"] [tag="NN.*"] のようにスペースで区切って連続した条件を書くと、「understand という単語に続いて名詞(NN)が現れるパターン」を検索します。CQL では正規表現や論理演算子も使えるため、「5文字以上の名詞」や「同一文中で近距離に出現する2語」なども複雑な検索も表現できます。
基本機能:KWIC 表示・頻度分析・共起分析
KWIC 表示(コンコーダンス)
検索を実行すると、デフォルトでは結果は KWIC 形式で表示されます。KWIC とは "Key Word in Context" の略で、検索語を中心に前後の文脈(コンテクスト)を数語ずつ表示したものです。これによって、検索語がどのような文脈で使われているかを直感的に把握できます。KWIC 表示をスクロールして眺めるだけでも、その語の典型的な使われ方(例えば頻出するフレーズや文型)を掴むことができます。
頻度分析
検索語の出現頻度は結果画面上部に表示されます。SketchEngine ではヒット件数とともに、コーパス全体における百万語あたり頻度(per million words; pmw)も表示されることがあります。頻度情報は、語がどれほど一般的かを示す指標であり、異なる語を比較したりジャンル間で出現率を比べたりする際に有用です。また Frequency List(頻度表)機能もあり、コーパス中で最も頻出する単語を列挙したり、特定の条件下での頻度順位を調べたりできます。
共起(コロケーション)分析
コーパス研究では、ある語と一緒によく現れる語(共起語, collocate)を調べることも重要です。Sketch Engine で検索した結果画面には「Collocations(コロケーション)」タブや「Word Sketch」タブがあります。Collocations 機能では、検索語の左右一定範囲内に出現する単語で統計的に有意に頻度の高いものがリストアップされます。さらに「Word Sketch」機能を使うと、検索語を中心とした文法関係ごとの共起一覧が得られます。例えば「オブジェクト(目的語)として現れる名詞」として what, it, this, things など、「副詞的に修飾する語」として fully, really, how などが抽出され、それぞれの共起頻度やスコアが表示されます。
検索例:BNC における understand の使用傾向
ここでは実際の研究のミニチュア版として、BNC(英国英語コーパス)における understand の使用傾向を分析してみます。Sketch Engine でコーパスとして BNC を選択し、検索バーに [lemma="understand"] と入力して検索します。結果として、BNC 全体での understand のヒット件数と KWIC 一覧が得られ、BNC 約1億語中のヒット件数はおよそ数千件程度になります。
KWIC 一覧をざっと眺めると、understand が使われる文脈にはいくつかパターンがあることが分かります。まず目立つのは、一人称主語との組み合わせです。「I understand」で始まる文が頻出しており、「I understand your point」のように相手の発言や事情を受けて理解を示す用法が多く見られます。さらに共起分析からは、understand と頻繁に共起する副詞に fully があります。「fully understand」は「完全に理解する」という意味で用いられ、「I don't fully understand」や「You must fully understand」のように深い理解の有無を強調しています。
このように、コーパスを使えばある語の使われ方や意味の広がりをデータに基づいて明らかにすることができます。頻度情報はその語の一般性や重要度を示し、共起は語のネットワークや特徴的なフレーズを教えてくれます。KWIC による文脈の観察からは、語の持つニュアンスの違いや使用場面の典型例を掴むことができます。これらはすべて、従来の辞書や直感だけに頼っていたのでは得にくかった知見です。
本章では、コーパスの基礎から実践までを概観しました。コーパスは現代の人文学研究になくてはならない強力なツールです。大規模で多様な言語データを用いることで、直感や限られた例に頼った従来の研究に比べ、はるかに客観的で再現性の高い分析が可能になります。ぜひ本章で紹介した Sketch Engine 等のツールを実際に使ってみて、再現性ある言語研究の第一歩を踏み出してみてください。