福島第一原発事故を巡る報道を統計解析ツールRで有意検定する

福島第一原発事故と報道と統計学

東日本大震災が起きてから２年。この間、特に福島第一原発事故の放射線被害を巡って様々なニュースが流れ、その中には事故によって人々の健康に重要な影響を与えているのではないかという話題も沢山出ていました。確かに福島第一原発の事故は甚大な被害であり、その影響は健康被害も含めて正確に検証していく必要があります。

しかし、この間に報道されたいくつかの報道やデータは、統計学の見地からは有意とは言えないものも多数含まれていました。もちろん統計学の見地が全てではありません。しかし、きちんと検証されないデータが世の中に氾濫すると、何が正しくて何が間違っているのかを検証していくことが難しくなります。報道が正しかったのかどうかも含めて、統計学を一つの手がかりに自分でも検証してみる視点が重要かと思います。

原発事故後、アメリカ西海岸で乳幼児死亡率が35%増加した？

あまり検証されずに話題になった代表的なデータの一つに、福島第一原発の事故後にアメリカ西海岸の乳児死亡率が35%増加したという話題があります。アメリカのメディアで大きく報道され、福島で開催された日本財団の国際会議でも話題になるなど、大変な騒ぎになりました（Is the Increase in Baby Deaths in the US a Result of Fukushima Fallout?　福島の原発事故後、アメリカの新生児死亡率が急上昇◆妊婦さん要注意◆福島の子供に体調異変?）。

しかし、この元記事を統計解析すると、統計的には有意とは言えないことがわかります。この記事で示されたデータでは、乳幼児死亡者数に関して

2011/3/19までの4週	37 (9.25/week)
2011/5/28までの10週	125 (12.50/week)

12.5/9.25≒1.35 で35%の増加です。元記事ではこれは統計的に有意であると書かれてあります。この仮説は正しいのでしょうか。全部で162人で，そのうち4/14が最初の4週に入るという帰無仮説を立てます。実際に最初の4週に入ったのは37人になります。（福島原発事故後の米国北西部の乳幼児死亡数）。この検証には統計解析ツールRの二項検定を使うと調査ができます（Rのインストールは、私のWEB開発に役立つ！統計解析ツールRをLinuxマシンに導入の記事をご参照ください）。

Rの二項検定関数binomを使って有意検定を行います。

< binom.test(37, 162, 4/14)

        Exact binomial test

data:  37 and 162 
number of successes = 37, number of trials = 162, p-value = 0.1174
alternative hypothesis: true probability of success is not equal to 0.2857143 
95 percent confidence interval:
 0.1661971 0.3008017 
sample estimates:
probability of success 
             0.228395

有意検定の指標となるP値は0.1174と出ました。P値とは、確率(probability)のPのことです。全く相関のない数字を組み合わせたときにその値が出る確率をあらわしています。11%ではほとんど偶然と言っていいほど福島原発と相関がないことになります。このP値を導き出した要素を調べてみましょう。

> usa <- binom.test(37, 162, 4/14)
> names(usa)
[1] "statistic"   "parameter"   "p.value"     "conf.int"    "estimate"   
[6] "null.value"  "alternative" "method"      "data.name"

#各要素の中身

> usa$statistic
number of successes 
                 37 
> usa$parameter
number of trials 
             162 
> usa$p.value
[1] 0.1173694
> usa$conf.int
[1] 0.1661971 0.3008017
attr(,"conf.level")
[1] 0.95
> usa$estimate
probability of success 
             0.2283951 
> usa$null.value
probability of success 
             0.2857143 
> usa$alternative
[1] "two.sided"
> usa$method
[1] "Exact binomial test"
> usa$data.name
[1] "37 and 162"

要素はそれぞれ、「成功数」「試行数」「P値」「95%信頼区間」「確率の推定値」「帰無仮説」「代替仮説」「検定法名」「最初に与えたデータ」になります。以上の要素により、今回の検定では、この帰無仮説は否定されたことになります。

さらに福島原発事故後の米国北西部の乳幼児死亡数の記事では、元の論文の作者が意図的に乳幼児死亡率が低かった４週間を意図的に期間設定したのではないかという、サンプル収集の恣意性に関しても言及されています。

原発事故後、福島県民の子供の甲状腺癌が発生率が増加した？

福島県の子供達の甲状腺癌の話題は日本国内で大変話題になったニュースで、記憶されている方も多数いらっしゃると思います。全国的な統計では、100万人に1人くらいの割合でしか発生しない甲状腺癌が、事故後の2012年に福島県民の子供を調査した時に8万人に1人の割合で検出されたというものです。

この話題はかなりスクープされましたが、平常時、100万人に1人の割合で起きる症例が、8万分の1の確率で偶然起こりえる確率がどれくらいかについて統計学的に検証している方は少数でした。福島県甲状腺癌発生率(1/8万)は過去の平均発生率(1/100万)と有意に異なるのかをフィッシャーの正確検定でチェック（結果：有意な違いがあるとは結論できない）の記事の方はRのフィッシャーの正確検定でこの確率に有意な差があるのか検証されています。

Ｒによるフィッシャーの正確検定の実行

> fisher.test(matrix(c(1000000,1,80000,1),nrow=2))
        Fisher's Exact Test for Count Data
data:  matrix(c(1e+06, 1, 80000, 1), nrow = 2) 
p-value = 0.1427
alternative hypothesis: true odds ratio is not equal to 1 
95 percent confidence interval:
   0.1592401 972.6936639 
sample estimates:
odds ratio 
  12.50004

検定の結果は「原発事故以前の発生率と今回の福島での発生率が同じ」であったとしても今回の検査結果（8万人から1人の甲状腺癌が見つかる）が得られる確率は14.27%あり、信頼度を95%と考えるのであれば「原発事故前後での甲状腺癌発生率に有意な違いがある」という結論は現時点の検査の途中経過からは得られないということでした。

ただ、この検定方法には、「100万人に1人の患者が出たデータと8万人に1人の患者が出たデータを比較」していることになり、「100万人に1人の発生率との比較」とは異なるという誤りがあり、この部分を適正化するために今回は一定の時間間隔で発生する離散的な事象の確率を扱うポアソン分布で検定してみることにします。

> 1-ppois(0,80000 * (1/1000000))
[1] 0.07688365

Rでポアソン分布で、100万回に1回起こる可能性が8万回に1回起こる累積確率を求めても7%と、信頼度を95%とするならば、有意とは結論づけられない結果が得られました。

また、この甲状腺癌の問題に関しては、全国調査では潜在的患者の母集団が隠れているので、実際には全国でも甲状腺癌の潜在患者はかなりいて、発症していないか何らかの強制的な検査によって発見されていないだけで、福島の子供の確率とは比較できないとする、標本に関する問題提起もあります（http://togetter.com/li/241058）。

統計学では全ては説明できないけど、ニュースを自分で検証する手がかりになる

統計学とて万能ではなく、様々な因子が関連する健康状態や社会問題などに関して単純な二項検定を行ったりすることは、逆に短絡的なな有意性検証を助長させかねない危険性はあります。しかし、ただ報道を鵜呑みにするのではなく、自分の力で検証や検定をしてみる時の手がかりの一つになることは確かかと思います。統計的には相関関係にないあらゆる仮説を受け入れることは、あらゆる可能性を否定することと表裏一体の面があります。統計学で全体を見通す力は重要な武器になるかと思います。

福島第一原発の事故と健康被害は現在も進行中です。その恐ろしさを狙ったセンセーショナルな報道に関して慎重に警戒すると同時に、出来るだけ多くのデータを集めて精緻に実態検証を進めていく必要があります。子供たちのためにも。国や自治体や関連機関が、再利用可能な統計データを公開されることを願っています。