出口、ありますけど: DeNAキュレーションメディアの問題は、Googleの敗北でもあるんじゃないのと

10月の末、SEOの専門家が「死のうとしている人から搾り取るなよ」とツイートしたことから、DeNAキュレーションメディアの問題点が次々に表面化しました。
[死にたい]でSEOされたwelq(運営:DeNA)の大きな問題

WELQ（ウェルク）とは、DeNAが運営していた「ココロとカラダの教科書」というサイト。ところがその内容は、普通の医療関係者なら怒るぜと、美容皮膚科の院長が告発するレベル。

WELQは医療関係者に監修されていないばかりか、引用やパクリを元にしていたことも指摘されました。他のサイトからの転用を指示するマニュアルがあったり、WELQ以外のサイトでは記事量産の手法も暴露されています。

「welq」の記事、専門家が“勝手に監修”　誤りやコピペ多数、「全面書き換え要望せざるを得ない」

DeNAがやっていたことは、ココロとカラダに関する有益な情報を広めて行こうとしたのではなく、検索されたときに上位に来ることで、広告収入を得ようとしていただけなのは明らかです。その手法があまりにも度を超したもので、しかも健康や命にかかわるものだから、多くの人の怒りを買い炎上し続けています。

医学部卒のライター朽木誠一郎さんは2015年4月に、今回の問題を予言するようにこんな記事を書かれています。

検索が命を脅かす時代 - ネットに広がるウソ医学から患者を守る医療情報メディア

しかし、どうしてこんなキュレーションメディアが検索上位に来てしまうのでしょうか。Googleはユーザーにとって役に立つサイトを検索上位にするために、これまで様々な施策を実施し、アルゴリズムを進化させてきたはずです。

DeNAのキュレーションサイトが大きな騒動になったのは、医療情報やセンシティブな問題を扱ったからだけでしょうか。

DeNA的なSEO手法が通用するなら、医療やセンシティブなジャンルを扱わずに手法をマネればいいと考える人は少なくないでしょう。それがまかり通れば、Google検索の信頼性は急速に失われてしまうかもしれません。

貼り合わせたり、パクった文章をGoogleは見抜けない？

かつてブラックSEOとしてワードサラダという言葉が、一部で流行しました。それほどワードサラダを使ったブログやサイトがあふれたのです。

nikkeiBPnetの時代を読む新語辞典には、2007年に「ワードサラダ」について書かれています。プログラムで自動生成される文章で、人間が読むと支離滅裂。でもロボット型検索エンジンには見抜けないことが多いと書かれています。もちろんGoogleは、品質に関するガイドラインとして「自動的に生成されたコンテンツ」という項目をもうけています。

自動的に生成されたコンテンツ

自動生成コンテンツの例としては、次のようなものが挙げられます:

自動化されたツールで翻訳されたテキストが人間によるチェックや編集を経ず公開されたもの

マルコフ連鎖などの自動化されたプロセスを通じて生成されたテキスト

自動化された類義語生成や難読化の手法を使用して生成されたテキスト

Atom/RSS フィードや検索結果からの無断複製によって生成されたテキスト

複数のウェブページからのコンテンツに十分な付加価値を加えることなくそれらをつなぎ合わせたり組み合わせたりしたもの

今回のDeNA的な手法は、人間の手が入ったものだから自動生成ではないです。この中に「翻訳されたテキスト」と出てきますが、Google翻訳もかつては支離滅裂でした。ところが最近ニューラル機械翻訳になって、従来のパーツごとから文章全体を一気に翻訳するようになって、人間のような自然さに近づいたと言われています。

今回の騒動では、投資家・山本一郎さんのちょっと思わせぶりなツイートもあります。

個人的に興味本位で起こしたAIが自動文節作成した記事が、クラウドワークス経由でDeNAのwelqやmeryに掲載されてて、それがSEOに役に立ったとかBuzzFeedでDISられててウケるんですけど。これはそろそろ暴露したほうがいいんですかね。
— 山本一郎（やまもといちろう） (@kirik) 2016年11月17日

低品質なサイトも、Googleは見抜けない？

自動生成がガイドラインに抵触するだけではなく、日本では2012年からパンダアップデートが行われています。Googleのウェブマスター向け公式ブログには、2012年に「良質なサイトをつくるためのアドバイス」が書かれています。
そこには「Googleが実際にアルゴリズムで使用しているランキングシグナルは公開できません。検索結果が操作されるような事態を防ぐためです。代わりに以下の項目をご覧頂くことで、Googleがこの件をどうとらえているのか、ご理解頂けるのではないかと思います」とあり、24項目の質問が書かれています。
そして「これらの質問から、Googleが良質なサイトと低品質なサイトとを見分けるアルゴリズムをいかにして書こうとしているのか、ご推察頂ければ幸いです」とあります。
そこからいくつかピックアップしてみます。

あなたはこの記事に書かれている情報を信頼するか？

この記事は専門家またはトピックについて熟知している人物が書いたものか？それとも素人によるものか？

サイト内に同一または類似のトピックについて、キーワードがわずかに異なるだけの類似の記事や完全に重複する記事が存在しないか

この記事は独自のコンテンツや情報、レポート、研究、分析などを提供しているか？

同じ検索結果で表示される他のページと比較して、はっきりした価値を持っているか？

コンテンツはきちんと品質管理されているか？

次のような理由で個々のページやサイトに対してしっかりと手がかけられていない状態ではないか？

　コンテンツが外注などにより量産されている
　多くのサイトにコンテンツが分散されている

記事はしっかりと編集されているか？それとも急いで雑に作成されたものではないか？

健康についての検索に関し、あなたはこのサイトの情報を信頼できるか？

抜粋した質問からすれば、DeNAのキュレーションメディアが検索上位に来るわけがないですよね。確実に、引っかかって低品質サイトと判断されると思うのですが。

Googleを揶揄するために書いているわけじゃありませんが、生真面目にGoogle対策していた人たちからすれば、なんだよ。まったくチェックされていないじゃん、となりませんか。

DeNAの問題が大騒動になって、他の大手キュレーションメディアなどでも閲覧できなくなったものがあります。それはGoogleによるペナルティではなく、社会的な問題化を避けるためだと思います。

NEVERまとめの作成者に「オーサーランク」を適用するLINE

著作権問題でずっと以前から問題になっていた、元祖キュレーションメディアNEVERまとめ。運営するLINEの上級役員が、12月5日に質の向上を目指す新方針を発表したそうです。

「ネットがこのままではいけない…」NAVERまとめ生みの親がキュレーションの問題点と新方針を語る

これによると、新方針は2つ。ひとつは「まとめの作成者にオーサーランクを適用」、もうひとつは「一次情報発信者の権利保護」。読むと、ほぼ不可能なんじゃないかという気がします。

オーサーランクとは、著者への評価。誰が書いているのか、どれほどの専門性を持っているかというところを問います。そのやり方は、◯LINE IDでの認証　◯作成者の経歴、背景などを審査し　◯ランクに応じて上位表示、高インセンティブレートというのですが、そのそもLINEがLINE IDに紐づけされる作成者の情報なんて持っているのでしょうか。

一次情報発信者の権利保護というのも、「サイト単位で一次コンテンツのオーサー登録」ということで、詳しくわかりませんが、権利者がオーサー登録する必要があるということでしょうか。

誰が記事を書いたのか、わかっていないGoogle

オーサーランクは、2012年にGoogleが本導入したGoogle+と紐づいた作成者情報です。検索結果に作成者の名前や顔写真などを表示するとともに、検索ランキングにも影響を与える評価要因だとしていました。

ところがもう「記事がだれによって書かれたかをGoogleは認識しておらず、コンテンツ品質の評価要因にもしていない」というのです。

【確定】誰が記事を書いたかをGoogleはランキング要因にしていない、もう一度ジョン・ミューラーに質問してみた。

作成者情報プログラムも廃止されたということですが、現時点でGoogleにログインして検索すると、Google+のサークルに入れている人の作成者情報は出てきます。

ともあれ、そんなことよりも誰によって書かれたかを認識していないというのは、驚きです。だとすれば、パクられたのかオリジナルなのかは判定できないのでしょうか。

同じ海外SEO情報ブログで鈴木謙一さんは、上の記事の前に「誰が書いたかをGoogleは認識できているふうではなさそうです」と書かれています。

Googleは、誰が記事を書いたのかをコンテンツ品質の評価要素にしているのか？

Googleジョン・ミューラー氏からの回答として、こうあるのですが。

どの人がどの記事を書いているかをわかっているということでもない。
しかしウェブの複数の場所で同じ記事をもし発見したなら、どこで初めに投稿されたのかを上手に判断できる。

つまりどちらが先か、タイミングは把握しているということですね。

以前にも書きましたが、記事を丸ごとパクられたことがあり、そのサービスを運営する大手企業に連絡を入れたのですが、返信すらありません。Googleで検索すると、下位ですが出てきます。

私の想像では、同じ記事が出ている。Googleは両方把握しているが、同じ著者が両方に書いたものか、それとも一方はパクったものなのか判断できていない。のだと思います。

つまりはパクられるのを防ぐことはできない。パクられたら著作権を侵害するものだと、自分でGoogleに申請する必要がある。そのためには想定されるキーワードで検索し続ける必要があるということ、ですよね。そんなバカな。

このことがやっかいなのは、たとえば企業がコンテンツマーケティングをする。パクられたり、引用されたりして、そのブラックなサイトが自社サイトよりも上位に来るを阻止するには、常に発見することを行って、Googleに申請しなきゃいけない。

そして、もしかすると設定したキーワードを使い、DeNAの手法に学びコンテンツを量産しなきゃいけないのではないだろうかと、バカバカしい想像をしてしまいます。

もちろんドメインのパワーがあるはずですが、Googleのアルゴリズムが飛躍的に進化しないかぎり、従来の検索結果はあてにならなくなるかもしれません。

Google検索は、大きな岐路に立たされている？

Googleの苦悩を推測できるような新機能を提供し始めたようです。アメリカのみ英語表記のみ、iPhoneとAndroidアプリのみということです。

グーグル新機能「症状検索」は役に立つか？

ハーバード大学医学大学院やメイヨークリニックと連携して症状検索カードを作成し、通常の検索結果の上に表示するようです。

権威ある機関と連携してということですから、オーサーランクの進化した形と言えなくもないと思いますが、結局は作成者を特定することが、有意義な検索にする早道なのではないでしょうか。カードがまず出てくるなら、ネット検索ではなく医療辞書検索ですよね。ネット社会以前、ほとんどの人は気になる症状があると家庭の医学的な本をめくっていました。

アメリカでの評価だと考えていいと思いますが、症状検索を始めた背景は、こういうことのようです。

グーグルは、「健康問題」を抱えている。医学的症状に関する検索結果はお世辞にも「とても便利」とは言えず、多くの場合で不安になるほど的外れで、患者や医師にフラストレーションを与えてきた。
アルファベッド傘下のグーグルはその治療法を開発したと述べた。同社は20日、「症状検索」と名付けた新機能の提供を開始した。

遅かれ早かれ、医療情報以外でも必要になりそうです。

2016年12月14日水曜日

DeNAキュレーションメディアの問題は、Googleの敗北でもあるんじゃないのと

貼り合わせたり、パクった文章をGoogleは見抜けない？

低品質なサイトも、Googleは見抜けない？

NEVERまとめの作成者に「オーサーランク」を適用するLINE

誰が記事を書いたのか、わかっていないGoogle

Google検索は、大きな岐路に立たされている？

0 件のコメント: