貧乏な小澤司が貧困を考える

身近な「暮らし」「労働」「教育」などの困ったことを、数学の力で手助けする、みたいな。ゲームコラムもあるよ

人気YouTuberの再生回数と登録者の関係、ジャンルの傾向等を統計解析。線形回帰とピアソン積率相関係数、正規性確率プロット

(自分が売れたいので)売れっ子YouTuberを統計分析してみる

 

前置き

(※このパートは分析とは直接関係ないので、読み飛ばすことが可能です)

 

いやはや生きることはつらい。

 

YouTuber(ユーチューバー)として、売れたいんですよね…。

なぜ売れたいのかと言えば、まあひとえに収入面の問題があります。

私、数年前から精神状態がけっこう悪いものでして、それゆえにフルタイムで働く社会人・労働者としてまともに生活できないんですよね。

現状、メインの塾講師のほか、ガジェットサイトやらゲームサイトやらの運営で何とか生きていますが、まあそれでは心もとなく、いつ生活保護以下の収入になってもおかしくなく。それで冒頭のユーチューバーの話につながってくるのですが、これがまあ全然人気がない。

なお最近、YouTubeの運営元・グーグルの規約が変わり、1000人以上のチャンネル登録者がつかないと広告収入が入らなくなりました…。つまり今はYouTubeからの収入はゼロ。

 

これではヤバいと思い、もっと頭を使っていくことにしました。

考えてみたらこれまで自分はマーケティングというものを全く考えず適当に動画を作ってきましたが、普通ミュージシャンにしても漫画家にしても、人気稼業において「売れる」人々というものは、マーケットのことを真摯に考えているものです。

例えばサザン桑田氏は通称「歩く電通」、ラルクhyde氏は売れるために自身の世界観とそぐわない「flower」という曲を作り、イエモンの皆さんは売れるために路線を切り替えた。いきものがかり各氏は曲製作の際にはまずレコード会社に企画書を提出、詞世界が受けている西野カナ氏は、作詞の際においてスタッフにリサーチを行なうといったように。

幸いにして、自分は数学の塾講師ですから、統計解析なら少々できるスキルがあります。

ということで、まずは売れているユーチューバーの再生回数と登録チャンネル数、ジャンルなどを参考にして、統計解析してみることにしました。

 

 

再生回数と登録チャンネル数の単回帰分析

ユーチューバーのチャンネル登録者数、再生回数をデータ化しているサイト「YouTubeランキング」を元にして、上位200チャンネルほどを対象に線形回帰分析を行いました。

まずは再生回数と登録者数の関係を、Rでプロットしたものがコチラ。目盛りが等間隔でないのはx軸(再生回数)が対数目盛であるからで、グラフがおかしいのではありません。

 

・再生回数とチャンネル登録者の線形回帰

 f:id:idea_glue:20180317092756j:plain

 

・線形回帰の出力

f:id:idea_glue:20180317092758j:plain

 

さて、データから回帰式

y ⁼ - 136049279.83752.47 + 752.47x

 

が得られました。

 

加えてxにくっ付いていている数(回帰係数と呼びます) 752.47は、「再生回数」の値が1大きいと、「チャンネル登録者」の値が平均して752.43大きくなることを示します

 

またP値は2e-16 (e-16は、10の-16乗のこと) となっており、0.001%水準で有意。

決定係数は0.5551となっており、これは再生回数の増減がチャンネル登録者の変動の55.5%を説明できるということを示しています。結構大きいようですね。

 

すなわち、「再生回数が増えると、チャンネル登録者が増える傾向がある。そして、再生回数の影響はけっこう大きい」ことが、結論として言えます。 

 

 

再生回数と登録チャンネル数の相関係数

一方、変数の相関性を示す「ピアソンの積率相関係数」は次の通り。

p値は2.2e-16であり、5%水準で優位な相関関係、そして相関係数は0.789。強い相関となっています。

 

f:id:idea_glue:20180317101601j:plain

  

・モデル診断

加えてこの線形回帰モデルが適切か、モデル診断を行いました。下図がその結果。

右上から時計周りに

  1. 基準化残差の正規確率(QQ)プロット
  2. 影響プロット
  3. 残差プロット
  4. SLプロット

 のモデル診断図となっています。

f:id:idea_glue:20180317094250j:plain

 


さてモデル診断において注目したいのは、基準化残差の正規確率プロット(Normal Q-Q)。

正規確率プロットというのは、分布が正規分布になっているかを調べるもので、正規分布の際は各データが破線で示された直線上に一直線に並ぶことになります。

ですが今回の場合、番号(22, 16, 7)といったデータにおいて、直線から上方に離れています。これは実際の残差が期待値よりも大きな値を持っていることを示すものであり、すなわち、登録者数の割に再生回数が多いことを示しています。

実はこの3つのデータって全て「キッズライン」「AAA joken TOYS」「Kan & Aki」といった、お子様向けおもちゃ紹介系動画チャンネルなんですよね。

なぜこれらトイ系・おもちゃ系動画において異様に再生回数が膨れるのか、その原理はぼんやりと想像は付くものの正確にはモチロンわからないものですが、とりあえず、この現象に注目してみたいものであります。

 

 

再生回数と各ジャンルの関係を多変量解析(ここは執筆途中)

書くのに疲れたので、取り敢えずここから先はそのうち書きます…。