「ももクロ人気」「漫画部数」「寄付してくれそうな人」…すべてビッグデータで分かる？

まったくどこかの街角に立つ占い師のようなハッタリだが･･･。
2013年2月7日朝日新聞

http://www.asahi.com/tech_science/articles/TKY201302060549.html
ももクロ人気・マンガ売り上げ…　大量情報で未来予測
　【杉本崇】ビッグデータと呼ばれる、インターネットや企業内の大量の情報を分析し、予測モデルを立てたり人工知能で計算したりして近未来を予測する研究が広がりつつある。アイドルグループの人気から失業率の動向まで応用は広い。
　アイドル「ももいろクローバーＺ」の今後の人気は？　東京工業大の高安美佐子准教授の研究チームは「ももクロ」という言葉がブログに登場する頻度を調べた。ももクロが紅白歌合戦に出場した後の頻度を数理モデルを使って分析すると、人気は上昇傾向という結果が出た。
　研究のポイントは予測に使う数理モデルの精度。高安さんは、ツイッターやブログの書き込み中の特定の言葉がブームになるかどうかを判別するモデルの精度を高めた結果、インフルエンザの流行時の広がりを予測するモデルと似た。このモデル式は１月の米国物理学誌フィジカル・レビューに掲載された。

このあとを箇条書きにしよう。
・氏は、帝国データバンクの企業間取引440万件のデータで、同社も把握してない「企業間のお金の流れ」を推測。東日本大震災での経済損失は4兆6900億円。予測モデルは万有引力に類似した。
・国連は昨年、SNSで交わされている言葉の分析から失業増加の兆候を発見できるとした。「食料品を買い控える」「公共交通機関の利用増加」「安い車に買い換えるなど」に関する子駑馬の増加＝失業率上昇の前兆。
・東大の松尾豊準教授は「人工知能によるアジア各国での日本漫画売り上げ予測」を研究っゆう。
・ただ「SNS上の大量のデータは誰のものか。勝手に使って分析していいのか？」という論理上の課題がある･･･
とのこと。記事執筆者は杉本崇記者。

オバマ陣営はデータ分析から「この人にメール送れば寄付してくれそう」と踏んだ人に送信して資金集め

http://d.hatena.ne.jp/vwxyz/20130122/1358826417

大統領選でObama陣営はメールをa/bテスト使って最適化
オンライン経由の献金の大半をメールから獲得
件名別成績とか
大量に送りつけても実害ゼロだと分かったとか
親父から「スパムだろ」と文句言われたくらいだ、とか
「見た目最悪」なデザインが一番献金してもらえてショックだった

等々を、中の人への取材を元にまとめててわかりやすい

http://news.mynavi.jp/column/svalley/489/index.html

･･･あるアプローチを試すと、その効果のデータが本拠のシステムにすぐに蓄積される。すると全体的には効果の薄いアプローチでも、例えば「ニューヨークで働く40代の女性」というように、ある一部のグループのみで効果を発揮することがある。オバマ陣営のデータ分析チームは数多くのテストを試し続け、データをどんどん蓄積・分析していった。その結果、どのようなタイプの人たちに対しても、効果的に働きかける組み合わせを見出し、説得できる可能性が低い人たちに対するアプローチも改善された。
予測のテストおよびデータ収集とともにキーとなったのが、データからのモデル作りだ。どのような性格や考えの持ち主で、どのように行動する人物であるかをデータから作り出す。

うーん･･･
以前、こう書いたじゃん。

･･･だから、銀英伝でたとえると（またかよ）「データ帝国」と「自由経験同盟」の長い、大きな戦争をイメージしてほしい。
そしてデータ帝国は近年、「オセロ星」「野球の若手スカウト・トレード実績星」「将棋星」「ワインのテイスティング星」などの要衝を次々に攻略、あるいは猛攻でいま陥落寸前･･･その中で今回の大統領選で上のような結果（大統領選で数理モデルによる予測者が、政治の世界で百戦錬磨の評論家に完勝）が出たことは、自由経験同盟としてはウランフ提督が討ち取られたぐらいのダメージをこうむった･･･

上の話って、どれもしろうと的にリクツは納得するんだ。

twitter上に名前が何度も出てくる漫画やアイドルは、人気上昇中。ものも売れる。
twitter上で「節約しなくちゃ」という言葉が頻出し始めたら不況の前兆。
出てくる単語を分析すればその人の政治傾向が分かり、ひいてはその傾向にそって「寄付のお願い」メールを送れば、手当たり次第にやるより寄付は集まる･･･

しかし、それを実際に分析できるのは膨大なデータ処理者と、数理モデルをつかんでいる一部の技術者･･･まさにビッグブラザーだな･･･
朝日新聞も「ビリオメディア」と称して今年から、twitterの単語分析によって政治トレンドを予測する、というのをしてたっけ。
http://www.asahi.com/special/billiomedia/twitter_bunseki.html#twgraph_bubble

まず、ツイッター上から「選挙」「衆院選」「衆議院選」「投票」という言葉が含まれているつぶやきを抽出。それぞれが、どんな政策課題に触れているのかを、つぶやきに含まれているキーワードを使って集計しました。グラフの数字は、つぶやきの件数。プラスアルファ・コンサルティング社（東京）の「見える化エンジン」を使っています。検索語の一覧はこちら。

数理モデル、一度完成すれば「個人」が使えるようにならないかな？

ただ！！
ここからはダイタンな予測。
そのデータ集め術も、数理モデルも、将来的には簡単なパッケージとなって、素人がボタンをポンで扱えるようになってしまうんじゃない？

すると、結婚紹介所じゃないけど「当方34歳、ヘビメタとガンダムとバイクツーリングが好きで、収入はXXX円。･･･そういう俺と話が合いそうで、好意的に見てくれそうな20代の女の子を、ツイートの中から分析してよ！」とやると、ちゃーっとtwitterやフェイスブック上のビッグデータを検索して、アカウントを割り出す･･･なんてこともありえるんじゃないですかね。経験ではなく数理モデルによって。
ま、今はSFですけどね。
こんな分析も。
人「ツイートの分析結果で、ふたたび格闘技ブームの到来する時期を予測してくれ。よし、ボタンをポン」･･･PC「なぜか急激に、K-1関連のワード出現率が上昇しています！！！　あ、大阪府警の暴露本の発売でした。」