YouTubeやSpotifyが「音声」に注目する理由|動画プラットフォームの次の一手
YouTube Musicが「音声のみモード」を追加し、Spotifyがポッドキャストに力を入れる。動画の巨人たちが「耳」の市場に進出する背景には、ユーザーの消費行動の変化がある。その戦略的意図を紐解く。

YouTubeが音楽に特化したアプリ「YouTube Music」に「音声のみモード」を追加した。画面を消して音楽やポッドキャストを聴ける機能だ。動画プラットフォームの王者が、あえて「見ない」体験に投資している。
私は出版社系メディアで広告収益化とデータ分析を担当していた時期がある。その経験から言うと、プラットフォームが「セッション時間」を最も重視するのは、現場でデータを見ている人間なら当たり前のことだった。広告を表示する機会が増え、収益が上がる。シンプルな因果関係だ。
この一見矛盾する動き——動画の王が音声に注目する——には、明確な戦略がある。この記事では、その理由と、メディア運営者がそこから何を学べるかを整理する。

動画の限界と音声の優位性
動画は最もエンゲージメントの高いコンテンツ形式の一つだ。しかし、「画面を見続けなければならない」という制約がある。通勤中、家事中、運動中——画面に集中できない場面では、動画の消費が止まる。
プラットフォームはこの「消費が止まる時間」に気づいた。ユーザーがアプリを閉じるのは、コンテンツに飽きたからではなく「画面を見られない状況」になったから。ならば、画面を見なくても消費できる形式を提供すれば、アプリ内の滞在時間を延ばせる。
この発想の転換が、YouTube Musicの「音声のみモード」やSpotifyのポッドキャスト強化に繋がっている。
Spotifyの2025年四半期報告によると、ポッドキャストの月間アクティブユーザーは前年同期比25%増。動画コンテンツではなく、あえて「聴く」コンテンツへの投資を加速している。
プラットフォーム戦略の裏にある数字
大規模メディアのグロースハックと運用改善を主導していた頃、広告主が最も重視する指標は「セッション時間」だった。1回のセッションでユーザーが長く滞在するほど、広告を表示する機会が増え、収益が上がる。
この指標で言うと、音声は動画よりも有利な場合がある。動画は1本10〜20分で視聴が終わるが、ポッドキャストは1時間以上聴き続けるリスナーが少なくない。1回のセッションで消化するコンテンツ量が、動画よりも音声の方が大きいのだ。
数字で見ると、Spotifyのポッドキャストリスナーの平均セッション時間は42分。YouTubeの平均動画視聴時間が11分であることを考えると、音声の方が「1回の訪問あたりの滞在時間」が長い。
長い滞在時間は、広告枠の増加に直結する。Spotifyはポッドキャストの途中に自動的に広告を挿入する仕組みを持っている。セッションが長ければ、挿入できる広告の本数も増える。つまり、音声への投資は直接的に収益増につながるのだ。

Webメディアが学ぶべき3つの教訓
動画プラットフォームの音声戦略から、Webメディアも学べることは多い。
1つ目は「消費の場を広げる」という発想だ。 テキスト記事は「画面を見ている時間」にしか消費されない。音声版を追加すれば、「目がふさがっている時間」にも届く。リーチできる時間帯が単純に増える。
2つ目は「セッション時間を延ばす」という発想だ。 音声はテキストよりも長く消費されやすい。1記事3,000字の解説記事をテキストで読むのにかかる時間は約5分。同じ記事を音声で聴くと、約8〜10分かかる。話速の設定によるが、テキストよりもゆっくり進む分、滞在時間が延びる。
3つ目は「新しい収益フォーマット」の導入だ。 動画プラットフォームが音声広告という新しいフォーマットを開拓したように、Webメディアもテキスト広告以外の収益手段を検討する必要がある。アドブロックの普及でテキスト広告の効果が落ちている現状では、音声広告への移行は有力な選択肢だ。
正直に言うと、この3つは「知っていれば当たり前」に聞こえるかもしれない。でも、30社以上のメディア現場を見てきて感じるのは、知っていることとやることの間に、意外と距離があるということだ。
音声化に向けたプラットフォーム間の競争
2026年現在、音声コンテンツを巡るプラットフォーム間の競争が激化している。
Spotifyは音楽アプリから「オーディオファーストプラットフォーム」への転換を進めている。ポッドキャスト、オーディオブック、AI音声コンテンツ——音声に関するあらゆる形式を取り込もうとしている。
YouTubeは、動画の音声トラックだけを抽出する機能に加え、ポッドキャスト専用ページの提供を始めた。動画クリエイターが「音声だけで配信する」選択肢を持てるようにした。
Apple Podcastsは長年プラットフォームとして存在していたが、2025年にAI生成音声のポッドキャスト配信を公式に認める方針に転換した。これにより、TTSで生成した記事の音声版をそのままポッドキャストとして配信できる道が開けた。
この競争はWebメディアにとってもチャンスだ。複数のプラットフォームに音声版を配信することで、新しいリスナー層にリーチできる。
メディア運営者が次に取るべきアクション
具体的なステップを3つに絞る。
まず、既存のテキスト記事にTTSで音声版を生成する。次に、その音声版をポッドキャストとして配信する。Spotify、Apple Podcasts、YouTube Musicの3プラットフォームに配信できれば、初期のリーチは十分だ。
そして、再生データを計測する。どの記事がよく聴かれているか、どこで離脱しているか。このデータは、テキスト記事の改善にも活用できる。
先に正直に言っておくと、これらはすべて手作業でやるとそれなりの工数がかかる。RSS連携で自動化できる仕組みを使うのが現実的だ。
動画プラットフォームが音声に注目する理由は、「消費が止まる時間を取り込む」ことにある。画面を見られない状況でもユーザーを引き留め、セッション時間を延ばし、広告収益を増やす——この戦略はWebメディアにも応用できる。
情報は、届け方次第で人の行動を変えられる。テキストに届かない時間に、音声が届く。その事実をどう自分たちのメディアに組み込むか——それが、いま問われている。
「XとGoogleが音声化に本腰を入れる理由」を読むと、プラットフォーム戦略の全体像がさらに見えてくる。
記事を「音」で届けるサービス、PUBVOICE
私たちが開発したPUBVOICEは、メディア運営者の作業負担を増やさずに音声体験を追加できるサービスです。 RSSを登録するだけで、新しい記事が公開されるたびに自動で音声が生成されます。
「読者が記事を最後まで読んでくれない」——その悩みを聞くたびに、音声なら解決できると感じていました。 通勤中、家事の合間、運動中。テキストが届かない時間に、音声は届きます。 PUBVOICEは、その想いから生まれたサービスです。

笹尾 祐太朗
デジタル技術の力を借りて、一人ひとりの「やりたい」「できるようになりたい」に真摯に向き合い、技術の力で実現していく。それが私たちの使命です。
デジタル技術で、すべての人に新しい可能性を。広告・メディア業界での約10年の経験を基盤に、AI技術を活用して開発効率を抜本的に高めたWebメディア向けアプリ制作を提供しています。
関連記事
お問い合わせ
アプリ制作について、お気軽にご相談ください。 お客様のご要望に合わせた最適な解決策をご提案いたします。
お問い合わせフォーム
以下のフォームからお気軽にお問い合わせください。24時間以内にご返信いたします。
メールでのお問い合わせ
info@media-leap.com
24時間以内にご返信いたします
営業時間
平日: 9:00 - 18:00
土日祝日: 休業



