第7回聴くためのデジタルツール | 人文学とデジタル技術（2026）

内容

7.1

「聴くこと」とは

本章のタイトルは「聴くためのデジタルツール」です。インタビュー設計（7.2）や Whisper による文字起こし（7.3）といった具体的な技法に入る前に、まずなぜそもそも「聴く」のか、そして「聴くこと」とは何かを、哲学（鷲田清一）と教育・臨床（DLA）の二つの視点から確認します。デジタルツールはあくまで「聴くこと」を支える手段であって、目的そのものではないからです。

7.1.1なぜ「聴く」のか

現代は「話すスキル」「伝えるスキル」が評価されがちです。本章ではあえて、その対極にある「聴くこと」から始めます。聴くことには、(1) 自分中心の世界観から抜け出す働き、(2) 答えを急がず要約しない作法、(3) 相手をケアする力、という三つの観点があります。

そもそも、なぜ「聴く」ことが大切なのでしょうか。現代の教育やビジネスの場では、しばしば「話すスキル」「伝えるスキル」「プレゼンテーション能力」が前面に出されます。それ自体は大切な能力ですが、本章ではあえてその対極にある「聴くこと」から始めます。「話す」ことの上手さは、それを支える「聴く」ことの厚みなしには、本当の意味では機能しないからです。

📌 聴くことが大切な 3 つの理由

① 自分中心の世界観から抜け出すために

私たちは誰しも、自分の経験・育ち・身につけた価値観のなかで世界を見ています。自分のなかだけで考え続けていると、自分の見え方が「世界の見え方そのもの」だと信じ込んでしまいがちです（第 6 章プロローグの「直観をめぐる過信」と同じ構造）。聴くとは、この閉じた世界に他者の声を招き入れる営みで、自分の見方の限界・偏りに気づかせてくれます。AI 対話が普及した今、生身の他者の語りに触れる時間を意識的に確保する ことは、これまで以上に重要です。

② 聴くとは、待つこと・要約しないこと

「聴く」は本質的に「待つ」営みです。相手の話を最後まで遮らず、答えを急がず沈黙を共有し、自分の解釈をすぐに言葉にしない──それ自体が相手を尊重する姿勢の現れ。とくに 「要約」 は、一見善意に見えても、聴き手の枠組みで相手の言葉を圧縮してしまうため、語りのニュアンスや まだ言葉にし切れていない部分 が抜け落ちます。早い段階で「つまりこういうこと？」と要約されると、話し手が 自分でも整理しきれていない大事な部分を語る機会 を失ってしまうことすらあります。

③ 聴くこと自体が、相手へのケアになる

「ただ話を聴いてほしい」と感じる瞬間は、誰にでもあります。具体的な解決策ではなく、悩み・迷い・嬉しさ・辛さをただ受けとめてほしい──そんなとき、判断や助言を先回りせず、相手の語りを最後まで受けとめてくれる人がそばにいることは、何よりの支えになります。インタビュー調査でも、対象者は「真剣に聴いてもらえた」という経験そのものに価値を感じることがあり、これが ラポール（信頼関係） の基盤になります。聴くことは、研究の道具である前に他者をケアする営みでもあるのです。

🔄 対話には二つの見方がある

🎙️ 「話す」中心の対話観

いかに自分の考えを明確に・論理的に・説得力をもって伝えるか。プレゼン・ディベート・ピッチ・AI 対話など、現代の教育とビジネスが鍛えようとするのはこちら。

👂 「聴く」中心の対話観

相手の声・沈黙・ためらいをまず受けとめる。哲学・臨床・ケア・フィールドワーク・質的研究・文学研究の精読など、人文学が伝統的に大切にしてきたのはむしろこちら。本章はこの後者に立ちます。

7.1.2哲学から見る聴くこと──鷲田清一とAI対話の「無痛性」

哲学者・鷲田清一は、聴くことを「答えるよりも深い参与」と呼びました。聴くとは、沈黙・ためらい・痛みにとどまる時間であり、それゆえ痛みも伴います。これは AI との無痛な対話とは対極にある時間です。

📖 鷲田清一の「聴くこと」──能動の営みとしての聴き方

「聴く」というと、つい「黙って受け身でいる」イメージを持ちがちです。しかし哲学者・鷲田清一は『「聴く」ことの力──臨床哲学試論』（1999）で、聴くことを受動ではなく、相手の言葉を引き出す能動的な営みとして描き出しました。

💡

鷲田が示す 3 つのこと

① 聴くは「能動」──黙って受け身でいるのではなく、相手の言葉を 引き出す 営み。
② 「答え」よりも「とどまる」──臨床の場で問われるのは、答えなさやためらいを そのまま受けとめてとどまる こと。
③ 性急な要約は対話の核を取り逃がす──早回しの解決提案や言い換えは、対話の本質をすり抜けてしまう。

🔇 沈黙・「間」・ためらいが手がかりになる

質的研究のインタビューや会話分析では、発話と発話のあいだに現れる沈黙・ためらい・語気の変化・話し方のニュアンスが、しばしば内容そのものより雄弁になります。

📝

逐語録に注記される非言語情報の例

・（沈黙 5 秒）
・（声が小さくなる）
・（笑い）

これらは音声認識 AI（Whisper など、7.3）が 拾えない 非言語情報であり、対話の質的な核に位置するものです。

質的研究で言う「短い質問・長い回答」という基本姿勢の根底には、この 沈黙への信頼 があります。

🤖 AI 対話の「無痛性」と、聴くことに伴う痛み

AI 対話の大きな特徴は、その「無痛性」です。AI は 疲れず、傷つかず、こちらの言葉に動じず、記憶もしません。安全で快適ですが、それと対をなすのが、聴くこと中心の対話にしばしば痛みが伴うという事実です。

😣

聴くことに伴う 3 つの痛み

・自分の立場や価値観が 問い直される 痛み
・解決を返せず、ただ受けとめるしかない 無力感
・相手の苦しみに自分も 巻き込まれる共鳴の負荷

これらの痛みは、効率の観点では「コスト」ですが、人文学的に見れば関係そのものを成立させている厚みの一部でもあります。

🔑

鍵は、「無痛な AI 対話に逃げ込むか／痛みを伴う人との対話にとどまるか」を、自分の状態と場面に応じて意識的に選び取ることです。

🔀 二つの対話を並べてみる

ここまで述べてきた「話すから始まる対話」と「聴くから始まる対話」を、構造的に並べると次のようになります（人文学と対話第4回の事前学習資料を簡略化）。

Conversational AI

💬 「話す」から始まる対話
──対話型 AI が加速させる

即時応答と無限の根気で、対話の摩擦を極小化。

▼ AI 対話の特徴

⚡ 即時性

「待つ」必要がほぼない

∞ 無限の根気

何度同じ質問でも疲れない

📐 整った言葉

まどろみのない整った文

🩹 無痛性

傷つかずに済む対話空間

⚠ 構造的に欠落するもの

·沈黙：応答が遅れる・止まる経験がない
·身体的応答：表情・声のふるえ・視線が返らない
·感情・痛み・記憶：相手は疲れず・傷つかず・覚えていない
·ラポールの蓄積：時間をかけて積もる信頼関係そのものが成立しない

Listening / Care

🤲 「聴く」から始まる対話
──人文学が大切にしてきた

沈黙・「待つ」・他者の痛みを含んだ、人間的な時間性。

▼ 対話を支えるもの

⏳ 待つ

答えに辿り着くまでの時間

🌑 沈黙

「ノイズ」ではなく対話の一部

😣 痛み

引き受けると関係に厚みが出る

🤝 ラポール

時間をかけて積もる信頼

🌱 「待つ」ことが対話を成立させる

相手が答えにたどり着くまでの時間、答えられないことを受けとめる時間──それらが信頼と理解を支える。即時応答が当たり前の AI 対話では、この「待つ」時間そのものが構造的に消去される。沈黙を「ノイズ」ではなく「対話の一部」として扱える場を、誰と・どこで・どのように作っていくか──これが「聴くこと」中心の対話を守るための問いになります。

🧭

両者は対立するものではなく、使い分けの問題です。「ファスト／スロー」のように、AI との「速い対話」 と、人と人との「遅い対話」 を、自分の状況と場面に応じて意識的に行き来できるかどうか──そこに、これからの「聴く力」がかかっています。

7.1.3教育・臨床から見る聴くこと──DLAに学ぶ「ことばの発達と習得のものさし」

子どものことばの力を測り・伸ばすための文部科学省の対話型評価法 DLA には、「ことばの発達と習得のものさし」（ステージとステップ）とZPDに支えられた対話観があります。冒頭の「空気作り」と、待つ・褒める・繰り返す・促すの四つの姿勢は、子どもだけでなく大人との対話・インタビューにも、そして 7.1.2 の鷲田の聴くことにも深く通じます。

「聴くこと」が単なる受け身ではなく、相手の言葉を引き出していく能動的な営みであること（7.1.2）は、子どもの言葉と思考を伸ばす臨床の現場でも、別の語彙で繰り返し述べられてきました。ここでは、子どものことばの力を測り・伸ばすための対話型の方法である DLA を取り上げ、その理論枠組みと実際的な作法が、大人どうしの対話やインタビュー調査にとってどんな手がかりになるかを考えてみます。

📚 本節の DLA に関する内容は、共同研究を行っている櫻井千穂先生（大阪大学大学院人文学研究科教授／複言語・複文化共存社会研究センター教育・研究部門長）から学ばせていただいているものです（researchmap）。本節で参照する 『文化的言語的に多様な背景を持つ外国人児童生徒等のためのことばの発達と習得のものさし　パッとわかるまるわかりガイド』（文部科学省総合教育政策局国際教育課、2025年 4 月発行、東京外国語大学多言語多文化共生センター編集）は、監修：小島祥美（東京外国語大学）／技能別監修：伊澤明香（関西大学・話す・聞く）／櫻井千穂（大阪大学・読む）／佐野愛子（立命館大学・書く）。記述上の誤りはすべてわたし（菅原）の責任です。

DLA とは。DLA は、文部科学省が公開している、ペーパーテストでは捉えきれない子どものことばの力を、一対一の対話を通して捉えようとする支援つきの評価法です。正式名称は 「文化的言語的に多様な背景を持つ外国人児童生徒等のための対話型アセスメント DLA」。当初は平成 26 年（2014）に 「外国人児童生徒のためのJSL対話型アセスメント DLA」 として川上郁雄ら早稲田大学の研究チームを中心に開発され、その後改訂されて、多言語版の整備や高校段階への活用も可能になりました（文科省・CLARINET）。テストのように一方的に問題を解かせるのではなく、評価者と子どもが一対一で対話しながら、ことばの力と思考の段階を見取っていく──対話を通じて評価すると同時に、対話を通じて伸ばす。測定と支援が地続きであるという考え方が DLA の根幹にあります。

「ものさし」は二つの独立した軸でできている。このアセスメントは、子どものことばの力を 2 つの軸 で見立てます。横軸＝包括的なことばの発達ステージ（A〜F）は、思考・判断・表現を支えることばの力を、日本語と母語をあわせた複数言語の力として 6 段階で捉えます（4 技能のうち 一番高いステージ を記す）。一方の縦軸＝日本語の習得ステップ（1〜8）は、日本語固有の知識・技能（語彙・表現・文章など）を 8 段階で捉えます。両者を組み合わせる「マトリックス図」のうえで、話す・聞く／読む／書くの各技能ごとに子どもの現在地を見立てる──これが「ことばの力のものさし」の枠組みです。目的は順位付けではなく、「学習を支える評価」（指導計画を立てるための見立て）です。

🎯

対話の鍵は、相手の今のステージを見立てたうえで、その次のステージの認知能力を引き出すような問いを差し出すことです。これがそのまま ZPD の実践（後述）──「支援を得て発揮できる最大限の力」を評価するという DLA の根本姿勢になります。

📊 横軸: 6 つの発達ステージ（A〜F）

※ 思考・判断・表現を支える包括的なことばの力（複数言語での力）の発達。日本語と母語の 4 技能のうち 一番高いステージ を記す。一段階進むのに 数年かかる のが一般的。

幼児〜低学年前半小1〜中2 段階中3〜高校段階

期　　【イマココ】期

年齢枠幼児〜低学年前半

特徴　対話による支援を得て、身近なこと・経験したことを 断片的に理解・表現

期　　【イマココから順序】期

年齢枠幼児〜低学年前半

特徴　対話による支援を得て、身近なこと・経験したことを おおまかに理解・表現

期　　【順序】期

年齢枠小 1〜小 2 段階

特徴　低学年の内容を 順序に沿って理解・表現、出来事作文が書ける

期　　【因果】期

年齢枠小 3〜小 4 段階

特徴　中学年の教科学習内容・基本的概念、因果関係の理解・説明、テーマ作文

期　　【抽象】期

年齢枠小 5〜中 2 段階

特徴　中学の教科学習内容・抽象的概念、要点の解釈・主題、一貫性のある説明、ジャンル別作文

期　　【評価・発展】期

年齢枠中 3〜高校段階

特徴　高校の教科学習内容・抽象的概念・実社会の話題、多角的・批判的視点からの議論・分析・評価・推敲

📊 縦軸: 8 つの習得ステップ（1〜8）

※ 日本語固有の知識・技能の習得段階。個人差が大きく、数ヶ月でいくつも進むケースも、数年同じステップにとどまるケースもある。

文字の習得開始日常会話教科学習

1–2

語彙　ごく限られた語

表現　定型表現中心

特徴　文字の習得の開始。基本的な挨拶や名前など

語彙　身近な語彙・表現

文型　単文

特徴　対話による支援を得て、意味の通じる短い文・短い文章

語彙　日常的な語彙・表現（制限あり）

文型　単文から基礎的な重文・複文

特徴　場面に応じたやりとり、対話文の形式の作文

語彙　日常的な語彙・表現（幅広い）

文型　自由な単文・重文・複文の生成

特徴　低学年レベルの談話・文章をほぼ誤用なく。「です・ます体」が使える

語彙　中学年レベルの教科学習の語彙・表現

文型　接続表現・指示語で 結束性 のある談話・文章

特徴　「だ・である体」、書きことばらしい文体

語彙　高学年〜中学レベルの教科学習の語彙

文型　慣用表現・コロケーション のレパートリー増

特徴　敬語、話体（普通体／です・ます体）の使い分け

語彙　中学〜高校レベルの抽象的概念語彙・低頻度語彙

文型　受身表現や名詞句、創造的な表現技法（比喩など）

特徴　論評文・創作的作品、多角的・批判的議論

マトリックスとして使う。2 軸を組み合わせ、話す・聞く／読む／書くの 3 領域それぞれで見立てます（DLA はそれぞれを別個に評価）。学校・家庭・地域の学習教室で子どもの普段の様子を 多角的・包括的に観察 しながら、DLA・テスト・母語でのアセスメント も併用するのが推奨されます。評価結果から「3 ヶ月後の目標を一段階上のステップに」といった指導計画を立て、子どもの 「わかる！」「できる！」 を大切にしながら学習を支える──これがこのものさしの使い方です。

ZPD（最近接発達領域）と足場かけ。DLA の理論的な土台のひとつが、ヴィゴツキーの ZPD（Zone of Proximal Development／最近接発達領域）です。ZPD は「一人ではまだできないが、他者の支えがあればできるようになる」幅を指します。対話する側に求められるのは、相手が今すでに到達しているところを正確に見て、その少し先に問いやヒントを置く感覚です（教育学でいう 足場かけ／scaffolding）。届きすぎても・届かなさすぎても、対話は伸びません。

「空気作り」。DLA の実践でとくに重視されるのが、対話の冒頭の 「空気作り」 です。緊張している相手にいきなり中身の質問を投げかけても、よい答えは返ってきません。雑談や、簡単な絵を見て話すような導入を通じて、「ここでは間違ってもいい・言いよどんでもいい・自分のペースで話していい」という安全な雰囲気をつくる──インタビュー調査でいうラポール（信頼関係）形成と、ほとんど重なる考え方です。

四つの基本姿勢──待つ・褒める・繰り返す・促す。「対話」のうえで、評価者・聞き手の姿勢として櫻井先生がとくに大切にされているのが次の四つです。

⏳ 待つ　言葉を探している沈黙を急かさない。沈黙を「答えがない」とみなさず、思考が動いている時間として尊重する。

🌱 褒める　たどたどしくても、まず言葉にしようとしたこと自体を肯定する。承認が次の発話の土台になる。

🔁 繰り返す　相手の言葉を一度なぞって返す。確認のためだけでなく、本人の言葉を対話の場に「定着」させる働き。

➡️ 促す　聞き手の枠で先回りせず、相手がたった今言ったことを踏まえて、続きを一緒に探す。

とくに「繰り返す」と「促す」はセットで機能します。繰り返すことで子どもは自分の発した言葉を改めて聴き直し、続きを語る足場が生まれる。そのうえで「○○って言ってくれたよね。じゃあ、その時はどう思ったの？」と促すことで、対話は本人の言葉から本人の次の一歩へと繋がっていきます。聞き手が自分の興味で別の方向に引っ張るのではなく、語り手の発話を起点に次のステージを一緒に探す──この姿勢が DLA の核にあります。

💼 大人との対話・インタビューにも生きる

これらの作法はもともと子どもとの対話のために整えられたものですが、大人どうしの対話やインタビューにも、ほぼそのまま通じます。語り手が大人であっても、自分の経験を言葉にする行為は、つねに 「まだ言葉になっていないもの」を言葉にする 営みだからです。インタビュアーが先回りして要約してしまえば、語り手は自分でたどり着くべき言葉にたどり着けません（7.1.1 ②で「要約しない」を強調したのと同じ理由です）。待ち・受けとめ・相手の発話を踏まえて先を促す──この姿勢は、7.1.2 で見た鷲田清一の「聴くこと」と深く通じ合います。

📈 インタビューでは「徐々にステージを上げる」

この見立て方は、インタビューの進め方の設計にもそのまま使えます。鍵は、ずっと同じステージにとどまらず、対話の流れのなかで徐々にステージを上げていくこと。

⚖️

偏りすぎると…

・ずっと ステージ B〜D（出来事の描写・順序立て・基本的な因果）の会話だけ → 内容が薄くなる
・逆にずっと ステージ E〜F（抽象的議論・批判的評価）ばかり → 語り手も聞き手も 疲れて しまう

大事なのはバランス。低いステージで関係と素材をつくり、高いステージで意味づけや評価を引き出す。

🪜

進め方の目安

① アイスブレイクは低めのステージから。日常・身近なこと（ステージ A〜C）で 空気作り。
② 出来事の 順序や具体（C） をひととおり語ってもらう。
③ 次に 因果・比較・分類（D）「なぜそうなった？」「他の場面と比べると？」へ進める。
④ 折を見て 抽象・主題（E）「全体を貫くテーマは？」を投げかける。
⑤ 余裕があれば 評価・統合（F）「今ふり返るとどう思う？」へ。

疲れが見えたら低いステージに戻して呼吸を整える──これも対話の作法です。

子どもか大人かを問わず、聴くとは相手の言葉を起点に次の一歩を支える営みなのです。

7.1.4聴くスキルの実際

「話すスキル」と「聴くスキル」は別の能力です。インタビューでは基本姿勢を「短い質問・長い回答」に置き、フォローアップ・深掘り・特定化・沈黙・解釈確認といった技法を組み合わせます。Whisper のような文字起こしツールは、こうした「聴く」時間自体を確保するための補助線です。

対話型 AI とのやり取りで「話すスキル」「言語化のスキル」が鍛えられることは確かにあります。しかし、人と人のあいだで必要な「聴くスキル」──沈黙に耐える、答えを急がない、相手の痛みにとどまる──が、AI との対話だけで育つかは別問題です。AI は疲れず、傷つかず、記憶もしないため、人間的応答とは異なる時間が流れています。

インタビュー調査・質的研究では、研究者が次の技法を組み合わせて「聴く」姿勢を実践します（次節 7.2 でも詳述）。

・🔁 フォローアップ：「それで？」と話を広げる
・🔍 深掘り：「もう少し詳しく」と促す
・📍 特定化：「具体的には？」と焦点化する
・🌑 沈黙の活用：あえて口を挟まず、待つ
・🪞 解釈確認：「つまり〜という理解でよいですか」と相手に返す

基本姿勢は「短い質問・長い回答」。AI が返してくる「短い質問・即時の長い回答」とは、時間の流れがまったく違います。本章で扱う Whisper のような音声認識ツールは、これら「聴くスキル」の代替ではなく、文字起こしという面倒な作業を肩代わりすることで、研究者が「聴く」こと自体に集中できる時間を作るためのものだと理解してください。

7.1.5関西風と東北風──対話のもう一つの軸

対話には「盛り上げる」関西風と「待つ」東北風という軸もあります。インタビューや「聴くこと」から始まる対話に必要なのは 東北風の態度。鍵は ズレを「作る」のではなく、ズレに「気づく」 こと。

ここで、対話における一つの重要な観点として、「関西風の対話観」と「東北風の対話観」という対比について触れておきます。

現代の日本において「コミュニケーション能力が高い」とされる状態は、正確に言えば「吉本風の対話観」に強く影響を受けています。近年は特定の芸人の会話スタイルが世間一般にも広く浸透しており、日常の会話のなかにも 「ボケ」や「ツッコミ」、そして最終的な 「オチ」 が求められる傾向が強い。そこでは、対話がどれだけ 「盛り上がったか（あるいはシラケたか）」 が暗黙の評価基準になっています。これを便宜上「関西風対話観」と呼びます。

一方、これと対極にあるのが「東北風の対話観」です。東北の会話文化では、そもそも会話のなかに「オチ」がないことが多い。そして何より重要なのは、その「オチがないこと」が場のなかで自然に許容されている点です。「ツッコミ」という過剰な干渉の文化も根づいていません。

🎤 関西風（吉本風）

会話のなかに 「オチ」 を求める。「ボケ」「ツッコミ」 が根づき、「盛り上がり／盛り下がり（シラケ）」 が暗黙の評価基準になる。『すべらない話』や粗品の話芸など、お笑い由来の作法が世間一般に浸透している。

🌾 東北風

会話に オチがないことが許容される。「ツッコミ」文化が関西ほど根づいていない。会話の 「間」 や、結論に至らない時間が、それ自体として受けとめられる。

実践的なインタビューや、真に「聴く」ことから始まる対話で求められるのは、間違いなく後者の「東北風」の態度です。対話の現場で場の空気をつくること自体は重要ですが（→ 7.1.3 の「空気作り」）、会話の「盛り上がり」を人為的につくろうとする必要も、語りに「オチ」を求める必要もありません。むしろ、過剰な干渉である「ボケ」や「ツッコミ」は、相手の自然な語りを阻害するノイズ（じゃま）にすらなりえます。

「笑い」は、ある状況における 「期待とのズレ」 によって発生すると考えられます。関西風の対話は、このズレを 意図的・技術的に生み出す ことで成立している。けれど、他者の言葉に耳を傾け、他者の世界を理解しようとする「聴く対話」では、自ら意図的にズレを仕掛けるようなコントロールは一切必要ありません。むしろ、そうした作為を手放し、「オチのない語り」にただ身を委ねる寛容さこそが、深い対話を生み出す条件です。

🎭 「期待とのズレ」を生む2つの例（M-1 漫才から）

🥛 ミルクボーイ「コーンフレーク」（M-1 2019 優勝）　── 論理・確信のズレ

状況: 母親が好きな朝ご飯の名前（本人は忘れている）を、ヒントから推測する。

期待: 「甘くてカリカリ」「牛乳をかける」というヒントで、観客もツッコミ（内海）も「完全にコーンフレークだ」と確信する。

ズレ: 「死ぬ前の最後のごはんもそれでいい」と続き、「ほなコーンフレークと違うか！」と積み上げた確信が突如崩れる。

「A といえば B である」という共通認識（期待）を作っては壊す、その振り子がズレの連続を生んでいます。

📜 実際のやり取り（一部抜粋）

駒場（ボケ）

うちのおかんがね、好きな朝ご飯があるらしいねんけど、その名前をちょっと忘れたらしくてね…

内海（ツッコミ）

どんな特徴を言うてたかっていうのを教えてみてよ

駒場（ボケ）

甘くてカリカリしてて　で　牛乳とかかけて食べるやつやって言うねんな

内海（ツッコミ）

ああー　コーンフレークやないかい！　その特徴はもう完全にコーンフレークやがな　すぐ分かったやんこんなの

▲ 期待が確信に

駒場（ボケ）

でもこれちょっと分からへんのよな

内海（ツッコミ）

何が分からへんのよ

駒場（ボケ）

俺もコーンフレークと思ってんけどな

内海（ツッコミ）

そやろ？

駒場（ボケ）

おかんが言うには「死ぬ前の最後のごはんもそれでいい」って言うねんな

内海（ツッコミ）

おーん…ほなコーンフレークと違うか

▲ 期待からのズレ

内海（ツッコミ）

人生の最後がコーンフレークでええわけないもんね

内海（ツッコミ）

コーンフレークはね　まだ寿命に余裕があるから食べてられんのや　あれ

駒場（ボケ）

そやな

内海（ツッコミ）

コーンフレーク側もね　最後のごはんに任命されたら荷が重いよ　コーンフレークってそういうもんやから

内海（ツッコミ）

ほなコーンフレークちゃうがな

内海（ツッコミ）

ほなもうちょっと詳しく教えてくれる？

駒場（ボケ）

何であんなに栄養バランスの五角形でかいんかわからんらしくてな

内海（ツッコミ）

コーンフレークやないかい！

▲ ふたたび「期待が確信に」

内海（ツッコミ）

パッケージに書いてる五角形むちゃくちゃデカいんやから

…つづく。次のヒントごとに「コーンフレークやないかい」（確信）→「ほなコーンフレークと違うか」（ズレ）のリズムが繰り返され、確信とズレが何度も振り子のように行き来する。

🚕 ぺこぱ「肯定するツッコミ」（M-1 2019）　── メタ的な「お笑いシステム」のズレ

状況: ボケ（シュウペイ）がタクシー運転手、ツッコミ（松陰寺）が客の役。ヘイタクシー！と呼んだら車にひかれる。

期待: 関西風漫才のセオリーで、ツッコミが「どこ見て運転してんだよ！」と強く否定・訂正するはず。

ズレ: ツッコミが「…って言えてる時点で無事でよかった」と途中から全肯定にピボットして相手を受け入れる。

観客の「ここでこうツッコむはず」という期待自体を見事にズラした例。皮肉にも、この「否定しない（過剰な干渉をしない）」態度は、聴くことの対話倫理に少し近いものがあり、それが現代の視聴者に新しく映ったとも言えます。

📜 実際のやり取り（一部抜粋）

シュウペイ（ボケ）

突然なんだけどさ、タクシー運転手なんてやってみたいなと思って

松陰寺（ツッコミ）

タクシー運転手か　いいじゃないか

シュウペイ（ボケ）

じゃあ運転手やるからお客さんやって？

松陰寺（ツッコミ）

悪くないだろう

🔊 ブーン（エンジン音）

松陰寺（客役）

ヘイタクシー！（手をあげる）

💥 ドーン（衝突音）

松陰寺（ツッコミ）

いや、いってえなあ　どこ見て運転してんだよ

▲ ここで「強い否定」が来ると観客は期待

松陰寺（ツッコミ）

って言えてる時点で無事でよかった

▲ 途中から肯定にピボット

松陰寺（ツッコミ）

そうだろ？

松陰寺（ツッコミ）

無事であることが何より大切なんだ

…つづく。否定の途中で「言えてる時点で…」と切り返し、全否定を全肯定に変換するリズムが繰り返される。

📍 この対比が照らし出す3つのこと

① 「コントロール」の有無という本質

関西風（エンタメ風）の対話は、テンポを生み、意図的に「期待」を形成してそれを「ズラす（裏切る）」ことで笑いをとる、極めて作為的でコントロールされたコミュニケーションです。一方、インタビューや人類学的フィールドワークにおける「聴く」行為は、「相手がどう語るか分からない（コントロールできない）」状態に身を置くことが前提になる。両者は水と油で、前者の態度を後者に持ち込むと、後者が死んでしまう。

② 「オチがないことの許容」という倫理

「オチを求める」ことは、相手の語りを「分かりやすい消費可能なパッケージ」に押し込める 暴力性 をはらんでいます。「オチがなくてもよい（東北風）」という態度は、相手のまとまらない思考や沈黙、非論理的な語りをそのまま受けとめるための「待機」の姿勢であり、対話における倫理そのものと言えます。

③ 「ズレ」を作るのではなく「ズレ」に気づく

笑いが「期待とのズレ」から生じるなら、自分からズレを仕掛ける（ボケる・ツッコむ）のは相手への 過剰な干渉（ノイズ） です。真の対話で必要なのは、人為的にズレを作ることではなく、相手の語りを通して「自分自身の前提や期待とのズレ」に気づかされることではないでしょうか。

7.2

インタビュー調査

7.2.1インタビュー調査とは

インタビューは日常会話ではなく、目的をもった「計画的な対話」です。文献や統計では得られない「生の声」を、ラポール（信頼関係）を築きながら体系的に引き出し、話し手と聞き手が協働して知見を生み出す場を作ります。

インタビュー調査とは、研究対象となる人に直接話を聞き、質問への回答を通じて情報を収集する質的調査手法です。文献や統計では得られない 「生の声」 を引き出し、文化人類学や社会学などでは、日常生活の経験談や考えをインタビューで集め、その背後にある意味を解明します。

💡

Kvale (2016) はインタビューを「inter-view」、すなわち共通の関心事について 二人の見解（view）をやりとりすること だと述べています。

📋 「日常会話」ではなく「計画的な対話」

インタビューは一見、日常会話に似ていますが、一定の構造と目的をもった計画的な対話です。インタビュアーの仕事は次のように整理できます。

🎙️ 引き出す側

質問項目をあらかじめ準備し、相手の話に注意深く耳を傾けながらデータを 体系的に引き出す。ラポール（信頼関係）の構築が前提。

🧭 舵取りする側

同時に対話の流れを 舵取り し、必要な情報を聞き漏らさないようコントロール。時間配分や質問の優先順位も意識する。

🤝

インタビュー調査は 話し手と聞き手が協働して知見を生み出す場であり、人文学の研究手法として独特の意義と注意点を持っています。

7.2.2インタビューの形式

代表的な 2 形式は構造化（質問を固定して比較しやすく）と半構造化（柔軟に深掘り）。質的研究では半構造化が最も広く使われますが、その柔軟性ゆえの難しさもあります。

インタビューにはいくつかの形式がありますが、代表的なのが構造化インタビューと半構造化インタビューです。それぞれ質問の進め方や柔軟性が異なり、調査の目的に応じて使い分けられます。

📋 構造化インタビュー（Structured Interview）

あらかじめ用意した質問リストに従い、決まった順序と言い回しで全員に同一の質問をしていく方法です。

✓ メリット：すべての対象者に同じ質問をするためデータの一貫性が高く、比較分析や集計が容易になります。

⚠ デメリット：質問や回答の自由度が低く、想定外の深掘りや新たな発見は生じにくいというデメリットがあります。

💡 適した場面：主に明確な仮説を検証する場合や、結果を数量的に比較したい場合に適した手法と言えます。

💬 半構造化インタビュー（Semi-Structured Interview）

事前に基本的な質問項目やテーマを用意しつつ、回答に応じて順序や表現を柔軟に変えたり、適宜追加質問をして深掘りする方法です。

✓ メリット：対話の流れに沿って思いがけないエピソードや本音を引き出せるため、豊かで深みのあるデータを得やすい点が強みです。

⚠ デメリット：情報の量や範囲にばらつきが出やすく、体系的に整理・比較するのが難しくなる場合があります。インタビュアーの力量によって成果が左右されます。

💡 適した場面：質的研究では最も広く用いられる手法ですが、その柔軟性ゆえの難しさも認識しておく必要があります。

ℹ️ 補足：上記以外にも、質問項目を定めず自由な会話で進める非構造化インタビュー（Unstructured Interview）や、複数の対象者に同時に話を聞くグループインタビュー（フォーカス・グループ）などの方法もあります。初心者にはまず構造化もしくは半構造化から始めるのが一般的です。

7.2.3インタビューのアプローチ

事前に仮説を立てるかどうかで仮説検証型（検証的）／仮説発見型（探索的）に分かれます。検証型は分析の見通しが立ちやすいが誘導に注意、発見型は新しい仮説を生むが分析が広くなりがち。

インタビュー調査の進め方には、大きく分けて仮説検証型（検証的アプローチ）と仮説発見型（探索的アプローチ）の 2 種類があります。これは事前に仮説を立てて臨むかどうかの違いによる分類で、それぞれ調査の目的や進め方が異なります。

🔍 仮説検証型アプローチ

あらかじめ明確な仮説や調査仮定を立て、その真偽を確かめることを目的にインタビューを実施する方法です。

◎ 進め方：先行研究や予備調査から「おそらくこうではないか」という予想を立て、それを裏付ける証拠を集めるように質問項目を設計します。

✓ 利点：仮説が明確である分、調査の目的や分析の見通しが立てやすい利点があります。

⚠ 注意点：初心者は自分の仮説どおりの答えを引き出そうとして無意識に質問を誘導したり、仮説と異なるデータを軽んじてしまいがちなので注意しましょう。仮説と異なる結果が出ても、それは研究を発展させるための貴重な手がかりとなります。

☀️ 仮説発見型アプローチ

明確な仮説を設定せず、データから新たな洞察や仮説を生み出すことを目的とする方法です（探索的インタビューとも呼ばれます）。

🎙 進め方：研究の初期段階や未知の現象を扱うときに有効です。広範でオープンな質問を用意し、対象者の語りに耳を傾けながら手がかりを探っていきます。

✓ 利点：集まった多様なエピソードや意見を分析して、「○○にはこうした要因が重要らしい」という新たな仮説を形成していきます。

⚠ 注意点：思いがけない発見につながりやすい反面、得られる情報の範囲が広く、分析に手間取ることもあります。新奇なテーマを扱う際や方向性を定める段階では有力な手法です。

以上のように、インタビュー調査は形式（構造化か半構造化か）や進め方（仮説検証型か仮説発見型か）によって特徴が異なります。研究目的に応じて適切な手法とアプローチを選択し、場合によっては柔軟に組み合わせることが重要です。

7.2.4インタビュー調査のプロセス：8つのステップ

山口富子 (2023) を参考に、準備から逐語録作成までを 8 ステップに整理しました。インタビューは場当たり的な会話ではなく、研究目的に沿って設計された対話です。各段階で「何のために、何を決め、何を残すか」を明確にすると、調査の質が安定します。

📌 調査テーマの決定

何を明らかにしたいかを定める研究の出発点。4 点を同時に点検するのがコツ。

社会的に意味があるか
学術的に何を前進させるか
実際にデータへアクセスできるか
限られた期間で到達できるスコープか

📚 先行研究レビュー（文献検討）

既知／未知を区別し、自分の研究を知識体系のなかに位置づける作業。

データベースで幅広く探索 → 要旨・結論で取捨選択
引用文献を辿って広げる → 必要な深さで読み込む
文献管理ツール（例: Zotero）で記録
主要概念（「コミュニティ」「アイデンティティ」等）の定義も整理

🧭 リサーチクエスチョン（RQ）の設定

研究の羅針盤。ここが曖昧だと質問設計もサンプリングもぶれる。

先行研究の知識ギャップと論理的につながっているか
答えるための手段（対象者・方法・時間）が見えているか
この問いに答えると何が前進するかを説明できるか

⚖️ 研究倫理の検討と倫理審査手続き

人を対象にする調査の土台。書類の提出で終わらず、信頼関係を支える実践と捉える。

プライバシー保護と匿名化
インフォームド・コンセント（説明と同意）
心理的・社会的リスクへの配慮、学協会の倫理綱領遵守
データ管理（保存場所・共有範囲・削除方針）を明示

🏛️

所属機関で倫理審査（IRB 等）が必要な場合は所定の手続きを踏みます。例: 大阪大学大学院人文学研究科の申請フォーム

👥 調査対象者の決定（サンプリング）

RQ に答えるための「誰に聞くか」の設計。質的調査は無作為ではなく 目的抽出 が基本。

現場・関係者を観察して登場人物を把握
理論的関心に沿って必要な属性・立場を検討
紹介を通じて接点を作る（スノーボール・サンプリング）
依頼文書：研究概要・所要時間・録音や匿名化の扱い・拒否/中断の自由を明示
修士研究の目安は 5〜15 名程度。情報が増えにくくなる飽和も判断材料

🗺️ インタビュー・ガイドの作成（質問設計）

ガイドは「台本」ではなく「聞き漏らし防止の地図」。

RQ を情報要件へ分解する
経験・意見・感情・知識・感覚・背景など複数タイプの質問を混ぜる
順序は 導入 → 核心 → クールダウン
誘導的な聞き方を避け、平易で短い質問を心がける

🎙️ インタビューの実施（データ収集）

録音機材と環境（静かさ・プライバシー）を事前確認。基本姿勢は「短い質問・長い回答」。

🔁 フォローアップ：「それで？」と話を広げる
🔍 深掘り：「もう少し詳しく」と促す
📍 特定化：「具体的には？」と焦点化
🌑 沈黙の活用：あえて口を挟まず待つ
🪞 解釈確認：「つまり〜という理解でよいですか」

最後は感謝を伝え、録音停止後にデータの扱い（匿名化・今後の手続き）を再確認して終えます。

📝 トランスクリプト（逐語録）の作成

収集した音声をテキスト化。単なる事務作業ではなく、語りの構造や違和感に気づく 最初の分析 でもある。

ここまで整うと、質的データ分析（コード化・カテゴリー化・解釈）へ進めます。詳細は 7.3 へ。

7.3

音声の文字起こし

インタビューで収集した音声データをテキスト化する逐語録の作成は、質的研究における重要なプロセスです。本節では、逐語録作成の意義と基本方針を確認した上で、近年利用可能な自動文字起こしツールである Whisper を用いた音声の文字起こし方法を紹介します。さらに、ブラウザ上で手軽に使える Web アプリ type/tape も紹介します。最後に、自動文字起こしの限界を踏まえ、出来上がったテキストを分析に適した形に補正・校正する考え方と実践について解説します。

7.3.1逐語録作成の意義と基本方針

逐語録は質的分析の土台となる分析用データ。その質が分析結果の信頼性に直結します。早く着手・忠実に再現・メモ活用・読み返し・バックアップ徹底 が 5 原則。

インタビュー音声を文字起こしして逐語録を作成することには大きな意義があります。逐語録という形でデータをテキスト化することで、音声だけでは分析しにくかった内容を細部まで検討できるようになります。また、研究者自身が音声を丁寧に聞き取り文字に書き起こす過程で、データ内容への理解が一層深まります。逐語録は質的分析の土台となる分析用データであり、その質が分析結果の信頼性に直結します。

逐語録作成の 5 つの基本方針

●
できるだけ早く着手する：インタビュー後、可能な限り早く（理想的には 24 時間以内に）文字起こしを始めます。記憶が新しいうちに作業することで、その場の雰囲気や自分が感じた着眼点も反映しやすくなります。時間が経つほど記憶が薄れるため、早めの作業開始が望ましいとされています。
●
発言を忠実に再現する：逐語録では話し言葉を可能な限りそのまま文字に移します。話の途中の「えーと」「あのー」といったつなぎ言葉や長い沈黙も、意味があると判断できる場合は省略せず記録します。聞き取れなかった部分は無理に推測で補わず、タイムスタンプ付きで「（聞き取り不明）」などと明記しておきます。
●
同時進行でメモを活用する：音声を再生しながら書き起こす中で、重要だと感じた箇所には印を付けたりメモを書き込みましょう。例えば特に核心的な発言に ★マーク を付ける、後で分析したいアイデアが浮かんだら括弧書きで「（○○について後で検討）」と注記するといった具合です。書き起こし作業自体がデータ内容を咀嚼する初期的な分析作業にもなります。
●
完成後に何度も読み返す：一通り逐語録が完成したら、分析に入る前に繰り返し通読します。読む中で発言内容がいくつかのトピックやエピソードの塊に分けられることに気づくでしょう。可能であれば音声データも再度聞き直し、話し方のニュアンスや口調を再確認します。次の「分析」ステップへの良い下準備となります。
●
バックアップの徹底：完成した逐語録データは必ず複数箇所にバックアップを取ります。パソコン上のデータだけでなく外部メディア（USB メモリやクラウドストレージ）にも保存し、一方が消失しても他方から復元できるようにします。倫理方針に従って適切に廃棄・保管し、消失・漏洩を防ぎましょう。

以上のように、逐語録作成は骨の折れる作業ですが、得られた生データを丹念に文字に起こしていく過程そのものが質的分析の第一歩とも言えます。音声をテキスト化する中で改めて発言の意味を考えたり、自身の質問の仕方を振り返ったりすることで、データへの理解が深まります。

7.3.2Whisper による自動文字起こし

OpenAI の音声認識モデル Whisper を Google Colab で動かせば、プログラミング不慣れでもセルを上から実行するだけで日本語の自動文字起こしを体験できます。

近年は音声認識 AI の発達により、インタビュー音声の文字起こし作業を自動化することも可能になっています。ここでは、OpenAI が開発した高精度の音声認識モデル Whisper を使い、Python 環境（例えば Google Colab 上）で音声ファイルを文字起こしする方法を紹介します。

📓 共有ノートブック：下記のコードをそのまま実行できる Google Colab ノートブックを共有しています：
https://colab.research.google.com/drive/13t4EdoImLGzSgWNLUasidV9mxiuiv3by?usp=sharing
リンクを開いて「ドライブにコピー」してから、自分の Google アカウントで上から順にセルを実行してください。コードを丸ごと貼り付ける手間が省けます。

💻 Colab 用コード（コピペして上から順に実行）

# 1) 必要ツールの準備（初回のみ）

!sudo apt update && sudo apt install ffmpeg -y

!pip install -q git+https://github.com/openai/whisper.git

# 2) 音声ファイルのアップロード

from google.colab import files

uploaded = files.upload()

audio_m4a = next(iter(uploaded))

# 3) m4a → mp3 へ変換

audio_mp3 = "audio.mp3"

!ffmpeg -i "{audio_m4a}" -codec:a libmp3lame -qscale:a 2 "{audio_mp3}"

# 4) Whisper モデルの読み込み

import whisper

model = whisper.load_model("small")

# 5) 文字起こしの実行（日本語指定）

result = model.transcribe(audio_mp3, language="ja")

print(result["text"])

# 6) 結果をテキストファイルに保存してダウンロード

with open("transcript.txt", "w", encoding="utf-8") as f:

f.write(result["text"])

files.download("transcript.txt")

上のコードは、(1) 変換ツールと Whisper の導入、(2) 音声ファイルのアップロード、(3) m4a から mp3 への変換、(4) モデル読み込み、(5) 文字起こし、(6) 結果保存、という流れで構成しています。とくに重要なのは、アップロードしたファイル名を自動で拾う点です（audio_m4a = next(iter(uploaded))）。これにより、ファイル名を毎回手で書き換えなくても動きやすくなります。

なお、長時間音声では処理時間が増えます。まずは small 程度で試し、必要に応じて medium 等へ切り替えるのが実務的です。

7.3.3type/tape によるブラウザ上での文字起こし

プログラミング不要の Web アプリ type/tape。音声ファイルをアップロードするだけでトランスクリプトが生成され、25MB 超のファイルも自動分割、日本語・英語の選択も可能です。

Whisper をコマンドラインや Google Colab で使うのはハードルが高いと感じる方には、ブラウザ上で手軽に音声の文字起こしができる Web アプリ type/tape もおすすめです。

type/tape は OpenAI の音声認識 API を利用した文字起こしツールで、音声ファイルをアップロードするだけでトランスクリプトを生成できます。次のような特徴があります：

・複数の音声形式に対応（mp3、m4a、wav など）
・25 MB を超えるファイルも自動的に分割して処理される
・日本語・英語の言語選択が可能
・生成されたテキストはそのままダウンロードできる

プログラミングの知識が不要なため、まず試してみたいという場合に適したツールです。Colab での Whisper 実行とブラウザ上の type/tape は、研究のフェーズや好みに応じて使い分けるとよいでしょう。

🔒 利用範囲について：type/tape は現在、研究メンバー間だけでの共有・公開にとどめており、利用にはパスワードが必要な形にしています。受講者で利用を希望する場合は、授業内で配布されるパスワード、もしくは担当教員にお問い合わせください。

7.3.4自動文字起こしの限界と逐語録の補正

Whisper の出力は「下書き」にすぎません。話者の区別ができない・誤認識・非言語情報の欠落という限界を踏まえ、人手で補正・校正して初めて質的分析に耐えるデータになります。

Whisper 等の自動文字起こしツールは非常に便利ですが、得られた結果をそのまま最終的な逐語録データとして使うことはできません。いくつかの限界があるため、人手による補正・校正を行い、分析に適した形に仕上げる必要があります。

⚠️ 自動文字起こしの限界と注意点

🚷 1. 話者の区別ができない

自動音声認識では誰が話しているかを区別することができません。インタビューにはインタビュアーとインタビュイーなど複数の話し手が登場しますが、Whisper は発話内容をテキスト化するだけで発言者の違いは出力上示されません。そのため、整理する段階で話者ごとに発言を区分し、ラベル付けする作業が必要です。

💫 2. 誤認識のリスク

Whisper の出力結果はおおむね高精度とはいえ完全ではなく誤認識も起こりえます。専門用語や人名などを誤った聞き取りで文字化してしまうケース、あるいは文章の切れ目や表現がおかしくなるケースがあります。そのため、必ず音声を聞き直しながら確認・修正する必要があります。

💬 3. 非言語情報（文脈情報）の欠落

質的分析ではしばしば発話のあいだの「間（沈黙）」やニュアンスが重要な手がかりとなります。しかし自動文字起こしは、そうした非言語情報をほとんど反映できません。長い沈黙やためらい、言い淀みや感情のこもった口調もテキストだけでは表現されないため、適宜注記を入れるなど補足追記することが大切です。これは 7.1.2 で論じた「沈黙・『間』・ためらいが手がかりになる」という質的研究の根本姿勢とも直結します。

以上の理由から、生成された文字起こし結果はあくまで「下書き」と捉え、人間の手による校正作業を経て初めて質の高いデータとなります。補正・校正の具体的な作業として、次のような点に留意します。

✏️ 補正・校正の具体的な実践作業

●
話者の区別を明示する：発言ごとに誰の発言か分かるように書き直します。話者名や仮名（「インタビュアー:」「参加者 A:」など）を各発言行の先頭に付し、区別できるよう体裁を整えます。
●
重要箇所の聞き直しと誤り修正：誤変換が疑われる語句や不明箇所については、必ず元の音声を再生して確認します。文脈上不自然な文章があれば適宜句読点の位置を直したり、必要に応じて「（聞き取り不明）」「（笑）」などの注記を加えます。
●
ノイズや不要部分の処理：ドアの開閉音や電話の着信音が入っている場合は「[ノイズ]」と記述するに留める、インタビュー開始前後の挨拶や雑談は逐語録では省略する、といった判断もあり得ます（ただし分析に有用なやりとりは漏らさないよう注意します）。

このように手を加えることで、自動文字起こしの結果がより正確で読みやすい逐語録へと磨かれていきます。言い換えれば、Whisper による文字起こしは荒削りな原石であり、研究者自身がそれを丹念に研磨して質的分析に耐えうるデータに仕上げるイメージです。最終的に完成した逐語録を何度も通読し、自分が扱うデータ内容を頭に入れておくことも忘れないようにしましょう。

パスワードを入力してください

聴くためのデジタルツール

第7回授業動画

本章の到達点

内容

「聴くこと」とは

インタビュー調査

音声の文字起こし

授業時間外学習（チェックポイント）

出席登録・ふりかえり

パスワードを入力してください

第7回 授業動画

本章の到達点

内容

「聴くこと」とは

インタビュー調査

音声の文字起こし

授業時間外学習（チェックポイント）

出席登録・ふりかえり

第7回授業動画