本文は、Facebook のシニアソフトウェアエンジニア Forrest Smith による記事「My Favorite Paradox」を翻訳したものです。

彼から本記事を日本語に翻訳する許可を得ています。

私たちは今、「ビッグデータ」の時代に生きている。基本無料のゲームは毎日最大 300GB にも及ぶデータを収集し、ウェブサイトはあなたのあらゆるクリックをピクセル単位で記録している。今では A/B テストを使って、「どの A/B テストツールがいちばん良いか」をテストすることさえできる。

嘘には三種類がある。嘘、真っ赤な嘘、そして統計だ。
―― マーク・トウェイン

意図的に数字を操作して、望む結論に誘導する人たちがいる。そんな手口には、もう驚かないだろう。

しかし、もっと厄介なリスクがある。賢く、十分な教育を受け、合理的に考える人であっても、正しいデータから、まるで正反対の誤った結論を導きかねないのだ。これはあなたが思うより、ずっと簡単に起こる。


シンプソンのパラドックス

1973 年、カリフォルニア大学バークレー校は性差別の疑いで訴えられた。データによれば、大学院の合格率は男性が 44%、女性が 35% だった。

応募者数 合格率
男性 8442 44%
女性 4321 35%

この訴訟をきっかけに詳細な調査が行われた。ところが結果はこうだった。女性は差別されていないどころか、むしろ合格率が高かった!

どういうことだろう?データは明らかではないのか?

答えはこうだ。シンプソンのパラドックスである。

集計を分けて見ると現れる傾向が、全体を合算すると消えたり、逆転したりすることがある。

実は、合格率の高い学科もあれば、低い学科もある。そして女性は競争の激しい学科に出願する傾向が強く、男性は合格率の高い「入りやすい」学科を好む傾向があった。全体だけを見ると男性が有利に見えるが、学科別に見るとむしろ女性のほうが合格しやすかったのだ。

男性の応募 合格率 女性の応募 合格率
学科A 825 62% 108 82%
学科B 560 63% 25 68%
学科C 325 37% 593 34%
学科D 417 33% 375 35%
学科E 191 28% 393 24%
学科F 373 6% 341 7%

これは実在の事例で、シンプソンのパラドックスの最も有名な例の一つでもある。

私がこのパラドックスをとても気に入っているのは、結果に影響するだけでなく、結論そのものを完全にひっくり返すことすらあるからだ。そしてこの「反転」は、本当に簡単に起きてしまう。

腎結石治療のミスリード

もう一つ例を見て、理解を深めよう。

腎結石の治療法には 2 種類ある。どちらが優れているだろう?

  • 治療法 A:350 人中 273 人が成功(78%)
  • 治療法 B:350 人中 289 人が成功(83%)

見たところ治療法 B のほうが良さそうだ。だが正解はこうだ。治療法 A!

なぜか?

タイプ 治療法 A 治療法 B
小結石 93% (81/87) 87% (234/270)
大結石 73% (192/263) 69% (55/80)
全体 78% (273/350) 83% (289/350)

腎結石には小結石と大結石があり、大結石のほうが治療が難しい。そして結石の種類ごとに見ると、どちらの場合も治療法 A の成功率が高い。

ポイントは、両治療法で小結石と大結石の割合が異なることだ。

  • 治療法 A:小結石 87 人、大結石 263 人
  • 治療法 B:小結石 270 人、大結石 80 人

治療法 A は難治の大結石の比率が高かったため、全体の平均成功率が「引き下げられて」しまった。一方、治療法 B は全体の成功率こそ高いが、扱ったのが治しやすい小結石に偏っていただけだ。実際には、結石の種類ごとに見れば、治療法 A のほうが常に優れている。

玉ねぎを剥くように考える

シンプソンのパラドックスは玉ねぎのようなものだ。外側の層(全体)では治療法 B が良さそうに見える。もう一層深く見ると、A が勝者になる。さらに剥いていくと、特定の条件では B のほうが適している、ということもあるかもしれない。

たとえば高齢患者では?肥満患者では?合併症のある患者では?一層深く入るたびに、それまでの判断がひっくり返る可能性がある。

集計を分けて見ると現れる傾向が、全体を合算すると消えたり、逆転したりすることがある。

私はこの「一層剥くごとに結論が覆る」過程が好きだ。直感に挑み、思考を迫ってくるからだ。


ゲームにおけるパラドックス

シンプソンのパラドックスは、入試や医学だけでなく、ゲームデータ分析でも顔を出す。

An image to describe post

ある FPS を想像してほしい。プレイヤーがスナイパーが強すぎると不満を言っている。あなたがデータを見ると──

  • スナイパーの平均キル数は他職より高い。

やはりプレイヤーの言い分は正しいのか。だが一層掘り下げると──

  • スナイパーは低ランク帯でキルが多い;
  • 高ランク帯では使用率が低い;
  • ある特定のマップでは圧倒的に強い。

この時点で調整を考え始めるかもしれない。だがまだ掘り方が足りない。さらに玉ねぎを剥こう。

  • スナイパーは取っつきやすいが上限が低い;
  • 初心者が好む職に対して有利に働く;
  • 長距離視界のマップではスナイパーが無双する;
  • あるマップでは、敵がよくミスをする;
  • スナイパー自体に問題はなく、味方のある OP(強すぎ)なサポートが強力すぎる;
  • マッチメイキングが、腕の立つスナイパーを高ランク帯に十分押し上げられていない;
  • あるいは、中堅レベルのスナイパーが誤って高ランク帯に紛れ込んでいる。

私は最後の二つが特に好きだ。というのも──

  • 六つ目は、問題が「スナイパーが強すぎる」ことではなく、そもそものマッチメイキングのロジックにあると示している;
  • 七つ目はさらに面白い。二つのまったく正反対の誤りが、似た悪い結果を生みうるのだ。

一つの仮説

私には一つの仮説がある──もはや「定理」と呼んでもよいかもしれない。

あらゆる統計結果について、同じデータから正反対の結論に至る状況を構築できる。

だからこそ、データから結論を出すたびに自問すべきだ。

  • もしかして私は、まさにシンプソンのパラドックスの只中にいるのでは?
  • まだ剥いていない層があって、そこに別の真実が隠れているのでは?

まとめ

どれだけデータがあっても、正しい問いを立てることが鍵だ。

善意で分析しても、問いを誤れば答えは誤る。

シンプソンのパラドックスは警鐘だ。統計の罠に気をつけよう。そして常に自分に問いかけよう。

「もう一層、深く見たらどうなるだろう?」

おまけの話:YouTube の読み込み速度

私の大好きな話をもう一つ。

2012 年、YouTube のエンジニア Chris Zacharias が「Page Weight Matters」というブログを書いた。彼は YouTube の動画再生ページの最適化を担当していた。元のページは 1.2MB もあり、読み込みがうんざりするほど遅かった。

彼は数日かけてページを 98KB まで軽量化し、リクエスト数を減らし、重たい Flash の代わりに HTML5 プレーヤーを採用した。手応えは十分。新バージョンをリリースした。

1 週間後、データを振り返ってみると驚きの結果が出た。

新ページのほうが旧ページより読み込みが遅かった!

平均レイテンシが上がっていたのだ。なぜ?ページは小さく、速くなったはずなのに?

これもまたシンプソンのパラドックスだ。

理由はこうだ。最適化の結果、新ページは大量の「新規ユーザー」を引き寄せた。たとえば東南アジア、南米、アフリカなど、ネット環境の厳しい地域のユーザーだ。これらの地域では読み込み時間が平均 2 分かかった――遅い。しかしそれでも使えるようになったのである。

旧バージョンでは、そもそもページが開けなかった。だから旧データにはカウントされていなかったのだ。

20 分から 2 分になったのは、失敗どころか大勝利だ。本来 YouTube を使えなかった人々が、ついに使えるようになったのだから。

では結論は?初歩的な集計は、これは失敗のリリースだと言った。

さて、私たちはこれまでに何度、データの中でこの「パラドックス」に迷い込んでいながら、まるで気づかずにいたのだろう?