相関関係と因果関係

相関関係と因果関係(そうかんかんけいといんがかんけい)では、相関関係因果関係の関わりについて解説する。

相関関係があるだけでは因果関係があるとは断定できず、因果関係の前提に過ぎない[1]。「相関関係は因果関係を含意しない (Correlation does not imply causation)」は、科学統計学で使われる語句で、2つの変数の相関が自動的に一方がもう一方の原因を意味するというわけではないことを強調したものである(もちろん、そのような関係がある場合を完全に否定するものではない)[2][3]。全く逆の言葉である「相関関係は因果関係を証明する (correlation proves causation)」は誤謬であり、同時に発生した2つの事象に因果関係を主張するものである。このような誤謬は虚偽の原因の誤謬(英: false cause)と呼ばれる(ラテン語では "cum hoc ergo propter hoc"、直訳すると「それとともに、そしてそれ故に」)。前後即因果の誤謬は、2つの事象に順序関係があることが前提であり、「虚偽の原因の誤謬」の一種である。

概要

広く研究された例として、ホルモン補充療法 (HRT) を行っている女性での冠状動脈性心臓病 (CHD) の発生率が低いことから、HRT が CHD 予防に効果があるという提案がなされたことがある。しかし対照試験を行ってみると、HRTによってCHDのリスクが若干ではあるが明らかに有意な増加を示した。データを再検討してみると、HRTを受けていた女性は上流階級の婦人が多く、ダイエットやエクササイズをよく行っていたことがわかった。つまり、HRTを受けることとCHD発症率が低いことは共通の原因の結果であり、両者に提案されたような原因と結果の関係は存在しない[4]

数学的には "Correlation does not imply causation"(相関は因果を含意しない)は正しい。論理学では、"imply" は論理包含を意味する。しかし、"imply" という言葉は通常「示唆する」という意味でも使われる。相関と因果に何らかの関係があるというのは正しく、因果関係を証明する際には相関関係の存在が必要となる。

統計学者エドワード・タフティは、Microsoft PowerPoint によるプレゼンテーションの簡潔さの批評の中で、"Correlation is not causation"(相関は因果ではない)のような "is" の使用を不正確で不完全だと批判している[5]。確かに相関関係は因果関係ではないが、それらが等価でないことを単に述べると、両者の関係についての情報が欠落する。タフティは、相関関係と因果関係について述べるには、最低でも以下のようにすべきではないかと示唆した。

「経験的に観察された共変動は、因果関係の必要条件だが十分条件ではない」

あるいは

「相関関係は因果関係と同じではない。相関関係は因果関係の単なる必要条件の1つである」

一般形式

虚偽の原因の誤謬は次のように表現できる。

  1. A の発生は B と相関している。
  2. したがって、A が B の原因である。

この種の論理的誤謬では、2つかそれ以上の要因の間の相関関係を観測しただけで、それらの因果関係について早まった結論に飛びつく。一般に、1つの要因 (A) がもう1つの要因 (B) と相関していることが観測されたとき、それだけをもって A が B の原因だとする。しかし、実際には他に以下のような4つの可能性があるので、このような早とちりは論理的誤謬である。

  1. B が A の原因かもしれない。
  2. 未知の第3の要因 C があり、実際には A も B も C が原因かもしれない。
  3. その「関係」は単なる偶然か、事実上偶然といってもいいような複雑で迂遠なものかもしれない。すなわち、2つの事象は同時に発生したが、直接の関係はなく単に同時に起こっただけである。
  4. B が A の原因であると同時に、A が B の原因である。ポジティブフィードバックシステムの動作はこれに当たる。

言い換えれば、AとBに相関があるという事実だけで、それらの間の因果関係を結論付けることはできない。たとえ相関関係が有意効果量が大きかったり、分散の大部分が説明されているとしても、因果関係の存在を確定するにはさらなる調査・研究が必要である。

誤謬の例

因果関係の逆転

火災現場に出動する消防士が多いほど、火災の規模は大きい。
したがって、出動する消防士が多くなることが、火災が大きくなる原因だ。

消防士の人数と火災規模には強い相関関係があるが、上のような因果関係は存在しない。実際には火災が大きいから多数の消防士がそこに送り込まれているのであり、因果関係は逆である。

第3の要因が2つの共通原因

以下の例では、交絡変数という未知の変数が相関する両者に影響している。例えば「例 3」の場合は「夏の暑さ」が真の原因である。

例 1
を履いたまま寝ると、起きたとき頭痛になることが多い。
したがって、靴を履いたまま寝ることが頭痛の原因である。

この場合、真の原因が「靴を履いたまま寝る」ことと「頭痛」の共通の原因であり、アルコールによる酩酊が相関の原因と考えられる。

例 2
明かりをつけたまま眠る若者は、その後近視になる可能性が高い。

これは、ペンシルベニア大学医療センターが比較的最近行った研究の例である。その研究は1999年5月13日発行のネイチャー誌で発表され、一般的なメディアでも大きく取り上げられた[6]。しかし、後にオハイオ州立大学が行った研究では、赤ちゃんを明かりをつけたまま寝かせることと近視に関係があるという結果は得られなかった。それとは別に両親が近視の子供は近視になる確率が高いという結果が得られ、近視の両親が子供を明かりをつけた寝室で寝かせることが多いという傾向があった[7]。つまり、この場合の交絡変数は、両親の近視と考えられる。

例 3
アイスクリームの売り上げが伸びると、水死者数も確実に増える。
したがって、アイスクリームが水死の原因だ。

アイスクリームがよく売れるのはであり、水死が増えるのも夏である。したがって、夏の暑さが両方の事象の共通する原因である。

偶然の一致

海賊の数が減るにつれて、同時に地球温暖化が大きな問題となってきた。
したがって、地球温暖化は海賊の減少が原因だ。

これはパロディ宗教である空飛ぶスパゲッティ・モンスター教が、相関と因果を混同する誤謬を風刺するのに用いた例である。

1950年代以降、大気のCO2レベルと犯罪レベルは同時に増大してきた。
したがって、大気中のCO2増加が犯罪増加の原因だ。

この例はもし因果関係があるとしたら非常に複雑で迂遠なものと考えられ、増加が相関しているというだけで因果関係を結論付けるのは尚早である。他のジョーク的な例として、Mierscheid Lawがある(ドイツ社会民主党選挙での得票率と鉄の生産量の相関を示したもの。ただし、社会民主主義政党の得票と鉄の生産量の間には、「経済成長の推移が双方の原因」という擬似相関の関係はあるかもしれない)。

互いに一方がもう一方の原因

(気体は)圧力が高まるに連れて、温度が上昇する。
したがって、圧力によって温度が高くなっている。

理想気体の状態方程式 PV=nRT は圧力と温度の関係を示したもので、両者には相関関係がある。質量が変わらない場合、圧力を高くすると温度が上がり、温度を高くすると圧力が上がる。この場合、両者は独立しておらず、直接的な比例関係にある。

因果関係の判定

デイヴィッド・ヒュームは、因果関係は経験に基づくとし、同様に経験は未来が過去にならうという仮定に基づくとし、その仮定も経験に基づくとした。これは一種の循環論法である。彼は「因果関係は具体的推論に基づかない」と結論付け、観測できるのは相関関係だけだとした[8]

直観的に、因果関係には相関関係だけでなく反事実的依存関係 (counterfactual dependence) も必要と思われる。例えば、ある学生のテストの成績が悪く、その原因が勉強しなかったためだとしよう。これを証明するには、反事実 (counterfactual) として、同じ学生が同じ環境で同じテストを受けるが、勉強はしっかりしてきた場合を想定する。時間を巻戻すことができれば、これ(その学生に勉強させること)を実際に試すことができ、元のバージョンとやり直したバージョンを比較することで因果関係を観測できる。実際には時間を巻戻してやり直すことはできないので、因果関係は正確に知ることはできず、推測することしかできない。これを「因果的推論の根本問題 (Fundamental Problem of Causal Inference)」と呼ぶ[9]

科学的実験と統計的手法は、世界の反事実的状態を可能な限り近似することを主な目標の1つとしている[10]。例えば、一貫してテストで同じ成績をとる一卵性双生児を対象として実験を行うとする。一方を6時間勉強させ、もう一方は遊園地で遊ばせる。その後のテストで成績が大きく異なれば、勉強(あるいは遊園地に行くこと)がテストの成績に因果的効果をもたらす強い証拠になる。このような実験を経れば、勉強とテストの成績の間には因果関係があるとほぼ確実に言える。

統計学的手法は、個人の等価性の代わりに集団の等価性を用いる。そのために、2つ以上の集団から無作為に標本を抽出する。完全なシステムではないが、被験者を無作為に抽出して、実際の治療を行う集団と偽薬を与える集団に置き、それら集団がなるべくあらゆる面で等質となるようにする。これによって、その治療法と偽薬の効果に大きな違いが現れれば、その治療法はその疾病を治療する因果的効果があると結論付けることができる。実験結果の有意性を定量化したものを統計用語でP値と呼ぶ。

脚注

  1. 谷岡一郎 『「社会調査」のウソ』文藝春秋〈文春新書〉、 2000年, p.126
  2. Tufte, Edward R. (2006). The Cognitive Style of PowerPoint: Pitching Out Corrupts Within. Cheshire, Connecticut: Graphics Press. pp. 5. ISBN 0-9613921-5-0. http://www.edwardtufte.com/tufte/powerpoint
  3. Aldrich, John (1995). “Correlations Genuine and Spurious in Pearson and Yule”. Statistical Science 10 (4): 364-376. http://www.jstor.org/stable/2246135.
  4. The hormone replacement - coronary heart disease conundrum: is this the death of observational epidemiology? Lawlor DA, Smith GD & Ebrahim S, International Journal of Epidemiology, 2004;33:464-467
  5. Tufte, Edward R. (2006). The Cognitive Style of PowerPoint: Pitching Out Corrupts Within. Cheshire, Connecticut: Graphics Press. pp. 5. ISBN 0-9613921-5-0. http://www.edwardtufte.com/tufte/powerpoint
  6. CNN, May 13, 1999. Night-light may lead to nearsightedness
  7. Ohio State University Research News, March 9, 2000. Night lights don't lead to nearsightedness, study suggests
  8. David Hume (Stanford Encyclopedia of Philosophy)
  9. Paul W. Holland. 1986. "Statistics and Causal Inference" Journal of the American Statistical Association, Vol. 81, No. 396. (Dec., 1986), pp. 945-960.
  10. Judea Pearl. 2000. Causality: Models, Reasoning, and Inference, Cambridge University Press.

関連項目

外部リンク

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.