2016年12月26日月曜日

選挙の行方はSNSが左右し、SNSで予測できる?



https://www.donaldjtrump.com/

2016年、アメリカ大統領選挙の結果予測を大手メディアがことごとく外したことが話題になりました。日本では通常メディアは候補者や政党に肩入れしていないことが建前ですから、支持を表明したりしません。
先の東京都知事選では、メディアの不偏不党ぶりの報道、そして与党の支持とは対照的にに、ネットやSNSでは小池百合子さんの話題が圧倒していたので、私は「都知事選をソーシャルメディアやネットから見た風景は、圧倒的に小池百合子さんだった」を書きました。


アメリカ大統領選挙で、世論調査や統計学が敗北したのか?


今回の大統領選挙ではアメリカのメディアのみならず、天才統計学者と呼ばれるネイト・シルバー氏も外してしまいました。ネイト・シルバーは、2018年の大統領選では50州中49州を、2012年の大統領選では50州すべての結果を的中させました。
それが2016年の予測では、大ハズレだったのです。


得票数ではクリントン氏がトランプ氏を、290万票も上回りました。ところがアメリカ大統領選挙の選挙人という仕組みで、ヒラリー氏が破れたのです。
クリントン氏、史上最も得票した敗戦候補に 290万リード
ただもちろんネイト・シルバー氏や大手メディア、世論調査会社は、そんな選挙制度を踏まえた上での予測です。

このことをエコノミストの伊藤洋一氏は、こう書かれています。

恐らく今回の米大統領選挙でクリントン氏以上に負けを認めなければならないのは、投票当日の朝まで「クリントン氏の圧倒的勝利」を予測し続けた、米国のマスコミそして世論調査会社だ。人材、装置などで十二分な情報収集能力とインフラを持ち、圧倒的な世論形成力を持つと思われていた三大テレビネットワーク、CNN、ニューヨーク・タイムズやワシントン・ポストなどの既存メディアが、これほど惨めな負けを経験したのは、米国の歴史上これまでなかったことだ。

金融そもそも講座 


トランプ氏本人は、勝因をソーシャルメディアの活用だと語る


こちらの記事では、ソーシャルメディアのエンゲージメント比較すると、トランプ氏はヒラリー氏を圧倒していた。その大きさは、映画「君の名は。」や「シン・ゴジラ」の数百倍の規模だといいます。
【検証】本当にトランプは、SNSで選挙に勝ったのか?

しかし話題になったから、それがどう投票行動に結びつくのか。選挙権を持たない人もいるだろうし、ネガティブな反応も少なくない。トランプ氏のTwitterでの炎上ぶりは、目を見張るものでした。賛否が拮抗するテーマでは炎上が起こりやすいものです。
炎上マーケティングといわれるものは、ECサイトへのアクセスを激増させると、“買う”人も増えるというもの。手軽な価格のものなら、そういう方程式も成り立つと思いますが、ことは選挙です。どれほど結びつくのでしょうか。

同じことを、先の都知事選でも思いました。「都知事選をソーシャルメディアやネットから見た風景は、圧倒的に小池百合子さんだった」でも書きましたが、「ポジティブ/ネガティブに関係なく、ツイート数の多さと支持の大きさは連動する傾向にあることが、弊社の過去の分析経験から分かっています」と言っている会社があるのです。

そう言われても半信半疑。ただYahoo!リアルタイム検索などを見ても、ネガポジ判定はいい加減なものです。そもそもアルゴリズムでポジティブ/ネガティブをきちんと解析できないなら、エンゲージメントか言及数、つまりは話題の大きさで判断するしかないはずです。

世論調査が外れたのは、トランプ支持をおおっぴらに表明できないものだ。隠れトランプが大勢いたという分析も少なくありません。
しかしSNSでも誰もが正直だとは限りません。やっていない人だっているのですから、ソーシャルメディアを調べたとしても、最初から大きなバイアスがかかっています。



事前に大統領選結果を的中させたのは、AIによるSNSスキャン


世論調査や統計学が敗北したといわれる今回の大統領選で、的中させたとされる予測を出したのは、私が探せた範囲では南アとインドのAIでした。

ひとつは公的機関やピザハット、ウーバーなどから依頼を受け、ソーシャルメディアに表れる市民感情をリアルタイムに追跡している南ア・ケープタウンのソフト会社「ブランズアイ」。この会社はAIを駆使してソーシャルメディアを追跡。
分析は人間の手で進めたということなので、ネガポジ判定はかなり正確かもしれません。CNNに書かれています。

ツイッターを中心に400万人からの投稿3700万件を収集した。分析の結果、クリントン氏への反感とトランプ氏への強い支持が多数を占めていることが分かったという。
大統領選の集計と照らし合わせると、11カ所の激戦州のうち9カ所で予想が的中した。

トランプ勝利的中、予測の鍵はSNS上の感情 南ア企業


もうひとつは、インドのジェニック・エーアイ社が開発した人工知能「MogIA」。グーグル、フェイスブック、ツイッター、ユーチューブといったプラットフォームから2000万以上のデータポイントを分析。今回の共和党と民主党の各大統領選候補者を選ぶ予備選挙の結果を含め、大統領選関連の過去4回の選挙で、MogIAは結果を正確に予測していたそうです。

トランプ氏勝利を示すデータの一例として、ネットユーザーのエンゲージメント(トピックに対する関わり)の比較で、バラク・オバマ氏が初当選した2008年のピーク時より、今回のトランプ氏が25%も上回っていたとのこと。

インド発のAI、トランプ勝利を10日前に予測

上の引用はNewsweekからですが、こちらでは「(MogIAは)候補者について投稿した人々の感情を理解することはできません。人が候補者を支持するか反対するかはわかりません」とあります。ジェニック・エーアイ社のCEOの言葉からすると、トレンド性が鍵のようです。

MogIAの分析が当たったのなら、ソーシャルメディアでのエンゲージメント。ブランズアイの分析が正しいのであれば、ソーシャルメディア、特にTwitterでの感情表出と選挙結果には、偶然ではなく正の相関関係があると言えそうですね。



反応がある前提として、まず注目。注目とは焚き火であるという本「ATTENTION」。
トランプ氏はこの本でいうところの即時と短期の注目には成功しました。






2016年12月14日水曜日

DeNAキュレーションメディアの問題は、Googleの敗北でもあるんじゃないのと





10月の末、SEOの専門家が「死のうとしている人から搾り取るなよ」とツイートしたことから、DeNAキュレーションメディアの問題点が次々に表面化しました。
[死 にたい]でSEOされたwelq(運営:DeNA)の大きな問題

WELQ(ウェルク)とは、DeNAが運営していた「ココロとカラダの教科書」というサイト。ところがその内容は、普通の医療関係者なら怒るぜと、美容皮膚科の院長が告発するレベル。

WELQは医療関係者に監修されていないばかりか、引用やパクリを元にしていたことも指摘されました。他のサイトからの転用を指示するマニュアルがあったり、WELQ以外のサイトでは記事量産の手法も暴露されています。

DeNAがやっていたことは、ココロとカラダに関する有益な情報を広めて行こうとしたのではなく、検索されたときに上位に来ることで、広告収入を得ようとしていただけなのは明らかです。その手法があまりにも度を超したもので、しかも健康や命にかかわるものだから、多くの人の怒りを買い炎上し続けています。

医学部卒のライター朽木誠一郎さんは2015年4月に、今回の問題を予言するようにこんな記事を書かれています。

しかし、どうしてこんなキュレーションメディアが検索上位に来てしまうのでしょうか。Googleはユーザーにとって役に立つサイトを検索上位にするために、これまで様々な施策を実施し、アルゴリズムを進化させてきたはずです。
DeNAのキュレーションサイトが大きな騒動になったのは、医療情報やセンシティブな問題を扱ったからだけでしょうか。
DeNA的なSEO手法が通用するなら、医療やセンシティブなジャンルを扱わずに手法をマネればいいと考える人は少なくないでしょう。それがまかり通れば、Google検索の信頼性は急速に失われてしまうかもしれません。


貼り合わせたり、パクった文章をGoogleは見抜けない?


かつてブラックSEOとしてワードサラダという言葉が、一部で流行しました。それほどワードサラダを使ったブログやサイトがあふれたのです。
nikkeiBPnetの時代を読む新語辞典には、2007年に「ワードサラダ」について書かれています。プログラムで自動生成される文章で、人間が読むと支離滅裂。でもロボット型検索エンジンには見抜けないことが多いと書かれています。もちろんGoogleは、品質に関するガイドラインとして「自動的に生成されたコンテンツ」という項目をもうけています。

自動生成コンテンツの例としては、次のようなものが挙げられます:
  • 自動化されたツールで翻訳されたテキストが人間によるチェックや編集を経ず公開されたもの
  • マルコフ連鎖などの自動化されたプロセスを通じて生成されたテキスト
  • 自動化された類義語生成や難読化の手法を使用して生成されたテキスト
  • Atom/RSS フィードや検索結果からの無断複製によって生成されたテキスト
  • 複数のウェブページからのコンテンツに十分な付加価値を加えることなくそれらをつなぎ合わせたり組み合わせたりしたもの
今回のDeNA的な手法は、人間の手が入ったものだから自動生成ではないです。この中に「翻訳されたテキスト」と出てきますが、Google翻訳もかつては支離滅裂でした。ところが最近ニューラル機械翻訳になって、従来のパーツごとから文章全体を一気に翻訳するようになって、人間のような自然さに近づいたと言われています。
今回の騒動では、投資家・山本一郎さんのちょっと思わせぶりなツイートもあります。



低品質なサイトも、Googleは見抜けない?


自動生成がガイドラインに抵触するだけではなく、日本では2012年からパンダアップデートが行われています。Googleのウェブマスター向け公式ブログには、2012年に「良質なサイトをつくるためのアドバイス」が書かれています。
そこには「Googleが実際にアルゴリズムで使用しているランキング シグナルは公開できません。検索結果が操作されるような事態を防ぐためです。代わりに以下の項目をご覧頂くことで、Googleがこの件をどうとらえているのか、ご理解頂けるのではないかと思います」とあり、24項目の質問が書かれています。
そして「これらの質問から、Googleが良質なサイトと低品質なサイトとを見分けるアルゴリズムをいかにして書こうとしているのか、ご推察頂ければ幸いです」とあります。
そこからいくつかピックアップしてみます。

  • あなたはこの記事に書かれている情報を信頼するか?
  • この記事は専門家またはトピックについて熟知している人物が書いたものか? それとも素人によるものか?
  • サイト内に同一または類似のトピックについて、キーワードがわずかに異なるだけの類似の記事や完全に重複する記事が存在しないか 
  • この記事は独自のコンテンツや情報、レポート、研究、分析などを提供しているか?
  • 同じ検索結果で表示される他のページと比較して、はっきりした価値を持っているか?
  • コンテンツはきちんと品質管理されているか?
  • 次のような理由で個々のページやサイトに対してしっかりと手がかけられていない状態ではないか?
     コンテンツが外注などにより量産されている
     多くのサイトにコンテンツが分散されている

  • 記事はしっかりと編集されているか? それとも急いで雑に作成されたものではないか? 
  • 健康についての検索に関し、あなたはこのサイトの情報を信頼できるか? 

抜粋した質問からすれば、DeNAのキュレーションメディアが検索上位に来るわけがないですよね。確実に、引っかかって低品質サイトと判断されると思うのですが。
Googleを揶揄するために書いているわけじゃありませんが、生真面目にGoogle対策していた人たちからすれば、なんだよ。まったくチェックされていないじゃん、となりませんか。

DeNAの問題が大騒動になって、他の大手キュレーションメディアなどでも閲覧できなくなったものがあります。それはGoogleによるペナルティではなく、社会的な問題化を避けるためだと思います。


NEVERまとめの作成者に「オーサーランク」を適用するLINE


著作権問題でずっと以前から問題になっていた、元祖キュレーションメディアNEVERまとめ。運営するLINEの上級役員が、12月5日に質の向上を目指す新方針を発表したそうです。

これによると、新方針は2つ。ひとつは「まとめの作成者にオーサーランクを適用」、もうひとつは「一次情報発信者の権利保護」。読むと、ほぼ不可能なんじゃないかという気がします。
オーサーランクとは、著者への評価。誰が書いているのか、どれほどの専門性を持っているかというところを問います。そのやり方は、◯LINE IDでの認証 ◯作成者の経歴、背景などを審査し ◯ランクに応じて上位表示、高インセンティブレートというのですが、そのそもLINEがLINE IDに紐づけされる作成者の情報なんて持っているのでしょうか。

一次情報発信者の権利保護というのも、「サイト単位で一次コンテンツのオーサー登録」ということで、詳しくわかりませんが、権利者がオーサー登録する必要があるということでしょうか。


誰が記事を書いたのか、わかっていないGoogle


オーサーランクは、2012年にGoogleが本導入したGoogle+と紐づいた作成者情報です。検索結果に作成者の名前や顔写真などを表示するとともに、検索ランキングにも影響を与える評価要因だとしていました。
ところがもう「記事がだれによって書かれたかをGoogleは認識しておらず、コンテンツ品質の評価要因にもしていない」というのです。

作成者情報プログラムも廃止されたということですが、現時点でGoogleにログインして検索すると、Google+のサークルに入れている人の作成者情報は出てきます。
ともあれ、そんなことよりも誰によって書かれたかを認識していないというのは、驚きです。だとすれば、パクられたのかオリジナルなのかは判定できないのでしょうか。

同じ海外SEO情報ブログで鈴木謙一さんは、上の記事の前に「誰が書いたかをGoogleは認識できているふうではなさそうです」と書かれています。

Googleジョン・ミューラー氏からの回答として、こうあるのですが。
どの人がどの記事を書いているかをわかっているということでもない。
しかしウェブの複数の場所で同じ記事をもし発見したなら、どこで初めに投稿されたのかを上手に判断できる。
つまりどちらが先か、タイミングは把握しているということですね。
以前にも書きましたが、記事を丸ごとパクられたことがあり、そのサービスを運営する大手企業に連絡を入れたのですが、返信すらありません。Googleで検索すると、下位ですが出てきます。
私の想像では、同じ記事が出ている。Googleは両方把握しているが、同じ著者が両方に書いたものか、それとも一方はパクったものなのか判断できていない。のだと思います。

つまりはパクられるのを防ぐことはできない。パクられたら著作権を侵害するものだと、自分でGoogleに申請する必要がある。そのためには想定されるキーワードで検索し続ける必要があるということ、ですよね。そんなバカな。


このことがやっかいなのは、たとえば企業がコンテンツマーケティングをする。パクられたり、引用されたりして、そのブラックなサイトが自社サイトよりも上位に来るを阻止するには、常に発見することを行って、Googleに申請しなきゃいけない。
そして、もしかすると設定したキーワードを使い、DeNAの手法に学びコンテンツを量産しなきゃいけないのではないだろうかと、バカバカしい想像をしてしまいます。
もちろんドメインのパワーがあるはずですが、Googleのアルゴリズムが飛躍的に進化しないかぎり、従来の検索結果はあてにならなくなるかもしれません。


Google検索は、大きな岐路に立たされている?


Googleの苦悩を推測できるような新機能を提供し始めたようです。アメリカのみ英語表記のみ、iPhoneとAndroidアプリのみということです。

ハーバード大学医学大学院やメイヨークリニックと連携して症状検索カードを作成し、通常の検索結果の上に表示するようです。
権威ある機関と連携してということですから、オーサーランクの進化した形と言えなくもないと思いますが、結局は作成者を特定することが、有意義な検索にする早道なのではないでしょうか。カードがまず出てくるなら、ネット検索ではなく医療辞書検索ですよね。ネット社会以前、ほとんどの人は気になる症状があると家庭の医学的な本をめくっていました。

アメリカでの評価だと考えていいと思いますが、症状検索を始めた背景は、こういうことのようです。
グーグルは、「健康問題」を抱えている。医学的症状に関する検索結果はお世辞にも「とても便利」とは言えず、多くの場合で不安になるほど的外れで、患者や医師にフラストレーションを与えてきた。
アルファベッド傘下のグーグルはその治療法を開発したと述べた。同社は20日、「症状検索」と名付けた新機能の提供を開始した。

遅かれ早かれ、医療情報以外でも必要になりそうです。