インタビュー調査と文字起こし
第7回 人文学とデジタル技術(2026)
7.1.1 インタビュー調査とは
インタビュー調査とは、研究対象となる人に直接話を聞き、質問への回答を通じて情報を収集する質的調査手法です。文献や統計では得られない「生の声」を引き出し、個人の考え方や経験、価値観を深く掘り下げることで、人間の行動や文化・社会の諸側面を包括的に理解することができます。Kvale (2016) もインタビューを「inter-view」、すなわち共通の関心事について二人の見解(view)をやりとりすることだと述べています。
インタビューは一見すると日常会話に似ていますが、一定の構造と目的をもった計画的な対話です。調査者(インタビュアー)はあらかじめ調査目的に沿った質問項目を準備し、相手の話に注意深く耳を傾けながらデータを体系的に引き出します。この過程では相手との信頼関係(ラポール)を築くことが重要ですが、同時にインタビュアー側で対話の舵取りも行い、必要な情報を聞き漏らさないようコントロールします。
7.1.2 インタビューの形式
構造化インタビュー(Structured Interview)
あらかじめ用意した質問リストに従い、決まった順序と言い回しで全員に同一の質問をしていく方法です。データの一貫性が高く、比較分析や集計が容易になります。一方で質問や回答の自由度が低く、想定外の深掘りや新たな発見は生じにくいというデメリットがあります。主に明確な仮説を検証する場合や、結果を数量的に比較したい場合に適した手法と言えます。
半構造化インタビュー(Semi-Structured Interview)
事前に基本的な質問項目やテーマを用意しつつ、インタビュー中は相手の回答に応じて順序や表現を柔軟に変えたり、適宜追加質問をして深掘りする方法です。対話の流れに沿って思いがけないエピソードや本音を引き出せるため、豊かで深みのあるデータを得やすい点が強みです。質的研究では最も広く用いられる手法ですが、その柔軟性ゆえの難しさも認識しておく必要があります。
非構造化インタビュー / グループインタビュー
質問項目を定めず自由な会話で進める非構造化インタビュー(Unstructured Interview)や、複数の対象者に同時に話を聞くグループインタビュー(フォーカス・グループ)などの方法もあります。初心者にはまず構造化もしくは半構造化から始めるのが一般的です。
7.1.3 インタビューのアプローチ
仮説検証型アプローチ
あらかじめ明確な仮説や調査仮定を立て、その真偽を確かめることを目的にインタビューを実施する方法です。先行研究や予備調査から「おそらくこうではないか」という予想を立て、それを裏付ける証拠を集めるように質問項目を設計します。仮説が明確である分、調査の目的や分析の見通しが立てやすい利点があります。
仮説発見型アプローチ
明確な仮説を設定せず、データから新たな洞察や仮説を生み出すことを目的とする方法です。探索的インタビューとも呼ばれ、研究の初期段階や未知の現象を扱うときに有効です。インタビュアーは広範でオープンな質問を用意し、対象者の語りに耳を傾けながら手がかりを探っていきます。
7.1.4 インタビュー調査のプロセス:8つのステップ
インタビュー調査を「準備開始から、分析直前まで」の流れとして8つのステップに整理します。各段階で「何のために、何を決め、何を残すか」を明確にすると、調査の質が安定し、後の分析も進めやすくなります。
調査テーマの決定:何を明らかにしたいのかという調査テーマを定めます。(1) 社会的に意味があるか、(2) 学術的に前進させるか、(3) 実際にデータへアクセスできるか、(4) 限られた期間で到達できるスコープか、の4点を同時に点検するとよいです。
先行研究レビュー(文献検討):先行研究をレビューして「既に分かっていること/まだ分かっていないこと」を区別します。文献レビューは単なる下調べではなく、自分の研究を知識体系の中に位置づける作業です。
リサーチクエスチョン(RQ)の設定:「まだ明らかでない点」を問いの形にしてRQを定めます。RQは研究の羅針盤であり、良いRQは先行研究の知識ギャップと論理的につながっており、かつ答えるための手段(対象者・方法・時間)が見えている問いです。
研究倫理の検討と倫理審査手続き:インタビューは人を対象にするため、倫理的配慮が調査の土台になります。(1) プライバシー保護と匿名化、(2) インフォームド・コンセント(説明と同意)、(3) 心理的・社会的リスクへの配慮、(4) 学協会等の倫理綱領の遵守を押さえます。とりわけ、データ管理(保存場所・共有範囲・削除方針)を曖昧にしないことが重要です。
調査対象者の決定(サンプリング):RQに答えるために「誰に話を聞くべきか」を設計します。質的調査では無作為抽出よりも、目的に沿ったサンプリング(目的抽出)が基本になります。修士研究の目安としては5〜15名程度が一つの基準になり、加えて「新しい情報が増えにくくなる(飽和)」も判断材料になります。
インタビュー・ガイドの作成(質問設計):対象者像が見えたら、当日の道しるべとしてインタビュー・ガイド(質問項目リスト)を作ります。ガイドは「台本」ではなく「聞き漏らし防止の地図」です。RQを情報要件へ分解し、経験・意見・感情・知識・感覚・背景といった複数タイプの質問を混ぜると、語りの厚みが出やすくなります。質問の順序は、答えやすい導入から入り、核心へ進み、最後はクールダウンする流れが基本です。また、誘導的な聞き方を避け、平易で短い質問を心がけます。
インタビューの実施(データ収集):本番では、録音機材と環境(静かさ・プライバシー)を事前に確認し、時間配分と質問の優先順位を頭に入れて臨みます。対話中は、フォローアップ(「それで?」)、深掘り(「もう少し詳しく」)、特定化(「具体的には?」)、沈黙の活用、解釈確認(「つまり〜という理解でよいですか」)などを組み合わせると、語りの精度が上がります。基本姿勢は「短い質問・長い回答」です。
トランスクリプトの作成(音声の文字起こし):収集した音声は、逐語録(トランスクリプト)としてテキスト化します。逐語録は、後のコーディングや解釈の「材料」になるため、手間がかかっても省略しにくい工程です。ここまで整うと、次の段階として質的データ分析(コード化・カテゴリー化・解釈)へ進めます。
7.2.1 逐語録作成の意義と基本方針
インタビュー音声を文字起こしして逐語録を作成することには大きな意義があります。逐語録という形でデータをテキスト化することで、音声だけでは分析しにくかった内容を細部まで検討できるようになります。また、研究者自身が音声を丁寧に聞き取り文字に書き起こす過程で、データ内容への理解が一層深まります。
基本方針
7.2.2 Whisper による自動文字起こし
近年は音声認識 AI の発達により、インタビュー音声の文字起こし作業を自動化することも可能になっています。ここでは、OpenAI が開発した高精度の音声認識モデル Whisper を使い、Python 環境(例えば Google Colab 上)で音声ファイルを文字起こしする方法を紹介します。プログラミングに不慣れな人でも、Colab 上でコードを上から順に実行するだけで自動文字起こしを体験できます。
# 1) 必要ツールの準備(初回のみ)
!sudo apt update && sudo apt install ffmpeg -y
!pip install -q git+https://github.com/openai/whisper.git
# 2) 音声ファイルのアップロード
from google.colab import files
uploaded = files.upload()
audio_m4a = next(iter(uploaded))
# 3) m4a → mp3 へ変換
audio_mp3 = "audio.mp3"
!ffmpeg -i "{audio_m4a}" -codec:a libmp3lame -qscale:a 2 "{audio_mp3}"
# 4) Whisper モデルの読み込み
import whisper
model = whisper.load_model("small")
# 5) 文字起こしの実行(日本語指定)
result = model.transcribe(audio_mp3, language="ja")
print(result["text"])
# 6) 結果をテキストファイルに保存してダウンロード
with open("transcript.txt", "w", encoding="utf-8") as f:
f.write(result["text"])
files.download("transcript.txt")
上のコードは (1) 変換ツールと Whisper の導入 → (2) 音声ファイルのアップロード → (3) mp3 への変換 → (4) モデル読み込み → (5) 文字起こし → (6) 結果保存 という流れで構成されています。特に重要なのは、アップロードしたファイル名を自動で拾う点です。なお、モデルを大きくするほど精度は上がりやすい一方で、計算資源も多く消費します。まずは small 程度で試し、必要に応じて medium 等へ切り替えるのが実務的です。
7.2.3 自動文字起こしの限界と逐語録の補正
Whisper 等の自動文字起こしツールは非常に便利ですが、得られた結果をそのまま最終的な逐語録データとして使うことはできません。いくつかの限界があるため、人手による補正・校正を行い、分析に適した形に仕上げる必要があります。Whisper などで生成された文字起こし結果はあくまで「下書き」と捉え、分析に耐えうる逐語録に仕上げるための素材と考えるのが良いでしょう。
言い換えれば、Whisper による文字起こしは荒削りな原石であり、研究者自身がそれを丁念に研磨して質的分析に耐えうるデータに仕上げるイメージです。最終的に完成した逐語録を何度も通読し、自分が扱うデータ内容を頭に入れておくことも忘れないようにしましょう。
本章で述べたインタビュー調査の実施と逐語録の作成までが整えば、質的データ分析の準備は万全です。適切な倫理配慮のもとにインタビューを行い、その結果を忠実かつ丁寧にテキスト化できれば、あとはそのデータをいかに読み解くかという分析段階に進むのみです。ぜひ倫理的かつ実践的にインタビュー調査と文字起こしに取り組んでいただきたいと思います。