「原因と結果」
2017.6.12
はじめまして、データサイエンスチームの山川です。
最近、経済学のジャンルでベストセラーになっている「原因と結果」の経済学―――データから真実を見抜く思考法と言う本を読みました。
この本では、一言で言えば「相関関係があるからといって因果関係が有るとは限らない」ということを述べています。
例えば、「はじめに」の一番最初に以下のようなグラフを示しています。これは、小学生のある時点における学力テストの正答率と、握力や50m走などの体力測定結果の関係を散布図にしたものです。
「体力があるから学力が高い」と考えてよいだろか。(中略)
もちろんそんなことはない。
と書かれています。でも、本当のところどうでしょう?
例えば受験勉強は体力勝負な印象があります。体力が無いから充分な勉強時間が取れず、結果学力が高くならない、といったことがあるかもしれません。
グラフだけを見ていると、相関関係はわかっても決して因果関係の有無を決めることは出来ません。
交絡因子
本の中では「親の教育熱心さ」という要素を提言しています。
- 親が教育熱心なほど、子供に勉強をするように仕向けるから学力が高い。
- 他方で、親が教育熱心なほど、スポーツを習わせる傾向が高いから体力も着く。
と考えてはどうだろう、という具合です。しかし、「親の教育熱心さ」をどのように定量的に測定すれば良いでしょうか?
測定できない要素では、検証することが出来ません。
経済性
教育熱心さを、「子供の教育にかけられる金額」で置き換えたら、所得水準の高い県ほど学力や体力が高いということにならないでしょうか?
そう考えて、都道府県別の世帯別GDPを調べて、学力・体力と比べてみました(これ以降、算数の学力のみを取り扱います)
残念ながら一人当たりGDPは学力とも体力ともほぼ無相関でした。原因はいくつか考えられます
- 学力データが公立小学校のものなので、県によって私立が多い/少ないの影響を受ける
- 特に体力で顕著かもしれないが、お金をかけないと子供が運動する機会を得にくい都心と、それ以外の差が大きい
- 世帯あたりGDPは粗すぎる指標である
特に地域差が大きいため全国での都道府県別の比較は難しいようです。
東京23区
そこで、東京23区で同じようなデータが取れないか調べてみました。東京都はこの手の調査に熱心なのか、以下のデータがみつかりました。
- 算数の正答率
- 平均世帯収入
- 高学歴人口率
- 体力の指標
- 教育扶助需給率
これらのデータを色々といじっていると
こんな関係が言えそうです。つまり、算数の学力と体力は直接因果関係が有るのではなく、エリア全体の学歴度合い及び家庭の収入を媒介にして相関がありそうです。
まとめ
小学生の学力と体力には因果関係があるか、という問題に対して、47都道府県のデータだと地域差が大きくて検証が出来ませんでした。
そこで、東京23区に絞ってデータを取り直し、いくつかの指標を見比べることで、何となく交絡因子がありそうだ、という手ごたえを得ました。
しかし、本格的に分析するならもっと指標を増やし、かつ複数年度に渡ってデータを揃えるなどのアプローチが必要そうです。
たった1ページ、1枚のグラフの内容を検証するだけでも結構大変でした。因果関係を検証するのは、一つ一つのテーマがそのまま論文になるほどの大きなテーマなので、とても全てをやりきることはできません。
ところで、我々は様々な因果関係に関するニュースに囲まれています。
- アベノミクス効果で日本経済は回復した
- 喫煙するほど肺がんにかかりやすい
- 保育園の数が足りないので、女性の就業率が上がらない
しかし、本当に因果関係が有るのか、単なる相関関係ではないのか(あるいは擬似相関かも?)。時に疑ってかかる必要が有りそうです。
テックブログ新着情報のほか、AWSやGoogle Cloudに関するお役立ち情報を配信中!
Follow @twitterRecommends
こちらもおすすめ
-
AICによるARモデルのモデル選択
2019.2.28
-
中央値を線形時間で選択するアルゴリズムについて
2019.7.12
Special Topics
注目記事はこちら
データ分析入門
これから始めるBigQuery基礎知識
2024.02.28
AWSの料金が 10 %割引になる!
『AWSの請求代行リセールサービス』
2024.07.16