昨年は、参議院選挙への対応が忙しく、お休みをさせて頂いた『データで予測するAKB48選抜総選挙』が2年ぶりに帰ってきました!
今回も2012年の予測と同様、ブログやTwitter、2ちゃんねるなど、いわゆる「クチコミ」関連データについては、株式会社ホットリンク 様、テレビやCMへの出演情報のデータについては、株式会社エム・データ 様にご提供を頂きました。
その上で、これらのデータが、過去の総選挙における各メンバーの得票数とどのような関係があったのかを統計的に導き出し、そこから、今年の選抜総選挙の予測モデルを構築するという手順で分析作業を行いました。
データの予測では、指原莉乃の連覇ならず、渡辺麻友が悲願のセンター獲得
まずはデータによる今年の予測結果をご紹介したいと思います。
5/21に発表された速報によりますと、指原莉乃が昨年に続いて1位となっていますが、クチコミやTV・CMの出演データにもとづく予測では、渡辺麻友が逆転して1位となり、悲願のセンターを獲得する、という結果が出ました。
今年の予測が難しい理由とは?
巷でも今年の総選挙は予測が難しいという声が聞かれますが、データの分析作業においても、そうした「混戦」模様を実感する結果となりました。
(1) 薄れるデータとの相関
予測モデルの構築にあたっては、各メンバーに関するブログやTwitterなどでの各メンバーに関する書き込み数や、TV・CMへの出演量などのデータと、過去の総選挙での得票数との相関関係を見ながら、まずは、予測モデルに使えそうなデータに当たりをつけることから始めます。
しかし、実際にやってみると、2009年~2011年のデータから得票数を予測した2年前と比べて、こうしたデータと得票数との相関が低くなる傾向が見られました。つまり、近年の選抜総選挙では、得票数の多寡を、クチコミ量やTV・CMの出演量だけでは説明しづらくなっている、という傾向が見てとれます。
2年前の予測では、ブログでの書き込み量とCMへの出演量を変数とする予測モデルを使って得票数を予測した結果、上位16名中、15名のメンバーを予測することができました。
ただ、ここはよく誤解されるところなので注意が必要ですが、この結果をもって、2012年の選抜総選挙において得票数に影響を与えたのは、ブログとCMだけだったと言っている訳ではありません。
言うまでもなく、実際の投票行動には、さまざまな要因が影響を及ぼします。ただ、2年前に行った予測では、さまざまな要因がありながらも、ブログやCMという2つの代表的なデータを見ることで、全体の得票数の動向は、比較的高い精度で予測・説明できた、というのが正しい説明になります。
(2) 全国区から地方区へ
ところが、今回の予測において参照した2011年~2013年の選抜総選挙では、こうしたデータと得票数との関係が薄れつつあるため、それらのデータから得票数を予測することが難しくなっている訳です。
その理由の一つとして、選抜総選挙の「地方区」化、ともいえる状況があるように思われます。
近年、前田敦子・大島優子・篠田麻里子をはじめ、TVなどの露出が多く、「全国区」で人気を得ていたメンバーの卒業が相次いだ結果、名古屋や大阪、博多など地方都市を拠点に活動するメンバーであっても、一定の支持があれば、上位に入れるようになってきたという事情があるように思われます。
実際、先日発表された速報でも、こうしたグループから、多くのメンバーが上位圏内に入っていますが、彼女たちの中には、各地域のローカル番組やCMに頻繁に出演しているメンバーも多くいます。
一方で、予測に使っているブログやTwitterなどの書き込みデータは、人口の多い、東京など大都市圏からの書き込みの占める割合が多くなる傾向がありますしTVやCMのデータも、関東キー局での出演情報を使っています。
このため「地方票」の比重が増してきた場合、こうしたデータを使った予測では、特に地方グループに所属するメンバーの得票が過小評価される可能性が出て来ています。
(3)AKB総選挙の原点回帰?
全国区で人気を得ていた大物メンバーの卒業によって、世代交代も進んでおり、先日発表された速報でも、加入後まもない若いメンバーが多く上位圏内に食い込んでいます。
若いメンバーは、古参のメンバーに比べて、TVやCMでの露出が少なく、その分、ブログやTwitterで書き込みも相対的に少なくなる傾向があります。にもかかわらず、彼女たちが上位に進出できている理由を説明するには、他の要素やデータを加味した予測モデルが必要になってくるのかもしれません。
よく言われることですが、1人で大量のCDを購入して特定の候補を応援するファンもいますし、先日、残念な事件が起きてしまいましたが、握手会などのイベントでの地道な活動を通じて、こうした根強いファンを獲得しているメンバーもいるでしょう。
今後、ブログやTwitter、TV・CMへの露出の頻度が少ないにもかかわらず、多くの得票を獲得するメンバーが増えてくる場合には、例えば、握手会での人気度など、これまで参照してこなかったデータを組み入れたモデルの構築も必要になります。(過去分も含め、そうしたデータが入手可能であるということが前提になりますが。)
このように、色々と予測の難しい今年のAKB48選抜総選挙ではありますが、みなさんと一緒に、6/7(土)の開票を、少しドキドキしながら待ちたいと思います。