まくろぐ

読書メモ『統計学が最強の学問である』西内啓

更新:
作成:
  • ビジネス領域における統計学を応用したソリューションのことをビジネスインテリジェンスと呼ぶ。
  • 統計学が最強の武器になるワケ ─ どんな分野の議論においても、データを集めて分析することで最速で最前の答えを出すことができるからだ。
  • 原因不明の疫病を防止するための学問を「疫学」と呼ぶ。
  • 現代の医療で最も重要な考え方として EBM (Evidence-Based Medicine)、日本語にすると「科学的根拠に基づく医療」というものがある。この科学的根拠のうち最も重視されるものの1つが、妥当な方法によって得られた統計データとその分析結果というわけである。
  • 統計リテラシーさえあれば、自分の経験と勘以上の何かを自分の人生に活かすことがずいぶんと簡単になる。
  • 心臓病だろうがコレラだろうが、原因不明なのであれば、その原因を明らかにするために行うべきことは、慎重かつ大規模なデータの収集であり、その適切な統計解析以外にはあり得ないのである。
  • データ分析において重要なのは、「果たしてその解析はかけたコスト以上の利益を自社にもたらすような判断につながるのだろうか?」という視点だ。
  • ★データの集計結果をビジネスに使うには、次の3つに答えられるものでないといけない
    1. 何かの要因が変化すれば利益は向上するのか?
    2. そうした変化を起こすような行動は実際に可能なのか?
    3. 変化を起こす行動が可能だとしてそのコストは利益を上回るのか?
  • フィッシャーたちの時代とそれ以前の統計学の大きな違いは、誤差の取り扱い方にある。
  • 統計学においてはこうしたデータの取り方のことを「A/Bテスト」とは言わずランダム化比較実験と呼ぶ(なおAパターンとBパターンの条件の変え方にランダムさが含まれていない実験は準実験と呼ぶ)。
  • クロス集計表について「意味のある偏り」なのか、それとも「誤差でもこれくらいの差は生じるのか」といったことを確かめる解析手法に「カイ二乗検定」というものがある。
  • 「実際には何の差もないのに誤差や偶然によってたまたまデータのような差(正確にはそれ以上に極端な差を含む)が生じる確率」のことを統計学の専門用語でp値という。このp値が小さければ(慣例的には5%以下)、それに基づいて科学者たちは「この結果は偶然得られたとは考えにくい」と判断する。
  • 統計学をある程度マスターすれば「どのようにデータを解析するか」ということはわかる。だが、実際に研究や調査をしようとすれば、「どのようなデータを収集し解析するか」という点のほうが重要になる。
  • 重要になるのは「ここから何かわからないか」という漠然とした問いではなく、そのようなデータのうち何が、どのような関係で利益と繋がっているのかである。
  • ランダム化比較実験がどれだけ強力か、その最も大きな理由は、「人間の制御しうる何者についても、その因果関係を分析できるから」である。
  • 統計学が「最強の学問」となったのはその汎用性の高さ、すなわち、政治だろうが教育だろうが経営だろうがスポーツだろうが、最速で最善の答えを導けるところにある。
  • フィッシャーが打ち立てたランダム化比較実験で、「誤差のある現象」を科学的に扱えるようになった。
    • 「無制限にデータを得ればわかるはずの真に知りたい値」を真値とよび、たまたまえられたデータから計算された統計量がどの程度の誤差で真値を推定しているかを数学的に整理することで、無限にデータを集めることなく適切な判断が下せるという考え方を示した。
  • ランダム化してしまえば、比較したい両グループの諸条件が平均的にはほぼ揃う。そして揃っていない最後の条件は実験で制御しようとした肥料だけであり、その状態で両グループの収穫量に「誤差とは考え難い差」が生じたのであれば、それはすなわち「肥料が原因で収穫量に差が出る結果になった」という因果関係がほぼ実証できたと言える。
  • 人件費を浪費して終わりのない会議を繰り返すよりは、比較的安価な媒体で小規模なランダム化比較実験を行ったほうが、早く、安く、確実な答えを得られる可能性が高い。
  • 「正解のない意識決定」について、正解がないのであればとりあえずランダムに決めてしまう、という選択肢の価値はもっと認められるべきだ。
  • わざわざデータの取り方を工夫しなくても、より高度な手法を用いれば可能な限り条件を揃えた「フェアな比較」が可能になる。そのための最も重要な枠組みの1つが回帰分析だ。
  • 回帰係数の誤差や信頼区間といった値を読み解けるようになれば、あなたの統計リテラシーはぐっとレベルアップする。
  • ありとあらゆる分野の研究結果が、先ほどの図表と同様に、回帰係数とその信頼区間やp値といった(あるいはこの一部を述べる)形で記述されている。
  • 現代における統計手法の王道「重回帰分析」は、「フェアな比較」を行ううえで重要な役割を果たす統計解析手法である。政府のレポートにおいても学者の論文においても、重回帰分析やその拡張であるロジスティック回帰の結果が示されている。
  • バスケット分析よりも統計学的なカイ二乗検定による相関分析のほうがいい。
  • 予測モデルから今後何をすべきかを議論したいのであれば、(シンプルな)回帰モデルの方が役に立つ。

関連記事

まくろぐ
サイトマップまくへのメッセージ