エクセルで出来る生物統計 - ゼロから始める回復期リハ

Biology statistics made simple using Excel

Neil Millar School Science Review, 2001,83

統計は難しい。その公式は複雑で、計算は煩雑で、表もややこしい。しかし実際には生物学者や統計学者はそのような計算式や表は使わず、統計ソフトを用います。でも、わざわざ高い統計ソフトを買わなくてもエクセルには統計学的検定が組み込まれています。

統計を用いる時の最初の壁は、どの統計手法を用いるべきかわからない、ということではないでしょうか。図1はこの論文で述べる様々な統計学的検定をいつ使うべきかを示したフローチャートです。他にもたくさんの統計テストはありますが、まずはこれを理解することから始めましょう。このフローチャートは実験を計画する段階で使うべきであって、実験が完了した後で用いるべきではありません。適切なデータを収集しなければ意味のある統計は出来ません。

f:id:uekent:20180525220653p:plain

この論文は以下の５つのセクションからなります：

1 記述統計：平均値、中央値、最頻値、標準偏差、標準誤差、信頼区間

2 データのグラフ化：散布図、棒グラフ、エラーバー、線

3 関連の統計：ピアソンの相関、スピアマンの相関、線形回帰

4 比較の統計：対応のある＆対応のないt検定、マン-ホイットニーのU検定、ANOVA

5 頻度の統計：χ2検定、関連のχ2検定

1 Descriptive statistics

良いデザインの実験であれば、測定は何度も繰り返し行われます。計測されたデータは記述統計を用いてまとめる必要があります。生物学の領域では、計測されたデータは多くの場合正規分布を示します。したがって平均値meanがもっとも適しています。標準偏差SDは、データのばらつきがわかる良い指標ですが、サンプルサイズが異なる場合は比較する時に注意が必要です。標準誤差SEは平均値の信頼性を示す使用です。データのばらつきを表す時には95%信頼区間CIが一番よく用いられます。信頼区間が平均値と比較して小さい場合、その平均値は信頼性が高くなります。図2の二つのデータセットは同じ平均値ですが、統計値はすべてグループAの方が小さく、より信頼性のあるデータはAであるということになります。

f:id:uekent:20180525220834p:plain

2 Graphing data

グラフはデータ分析の重要な一部であり、統計に直結するものです。図1のフローチャートにもあるように、グラフを選ぶことは統計手法を選ぶことにつながります。例えば、ふたつの変数の関連を調べる場合、散布図を描きます。異なるデータセットを比較する場合は棒グラフ、頻度データを収集したら、棒もしくは円チャートを描きます。なかにはグラフを描くのが不適当なこともあります。

Error bars

散布図や棒グラフにエラーバーでデータの信頼度を表示するとより良いです。エラーバーには標準偏差や標準語差を用いても良いですが、通常は±信頼区間を用います。エラーバーが小さいとデータは信頼性があり、大きいと不確かなデータであるとみて取れます。データを結ぶ線はエラーバーの中を通らなければなりませんが、解析する上で重要なのは「このエラーバーの範囲内で他の線を引くことが出来るのではないか？」(言い換えれば、このデータから他の結論が導き出されないか？)という問いを立てることです。図3のグラフには曲線が描かれていますが、エラーバーを通る範囲で直線も描くことが出来ます。したがってこのデータからは線形の関係も支持されることになります。

f:id:uekent:20180525220912p:plain

Lines

散布図にはしばしば線が描かれます。これはデータの点同士を線でつなぐ場合と、点と点の中央あたりを、線がなめらかになるように描く場合があります。どちらを選ぶかは状況によりますが、一般的には、ある事象XとYの連続した関連を想定するならば、後者が適しており。そうでなければ点と点を直線で結ぶべきです。この線は手書きが一番です。ただし線形回帰の線は別(以下参照)。

3 Association statistics

データ分析の課題の多くは二つの変数の間の関係を調べることです。この関係とは、ふたつの変数が同時に変化する場合にみられる相関関係correlationであったり、ひとつの変数が別の変数にどのように影響するかを見る回帰関係です。どちらの場合も散布図を描くことからまず始めるべきです。

Correlation

相関関係はふたつの変数が同時に変化する関係です。例えば、一方の変数が増えれば、他方も増える(もしくは減る)など。相関関係を調べるために頻用される検定は、正規分布に従う(パラメトリックな)データに用いるピアソンの積率相関係数Pearson product-moment correlation coefficientと、正規分布に従わない(ノンパラメトリックな)データに用いるスピアマンの順位相関係数があります。どちらも+1(完全な相関あり)から0(相関なし)そして–1(完全な負の相関あり)までの値をとります。

Linear regression

回帰Regressionはある変数の変化が、他の変数の変化の原因であると考えるときに用います。もっとも単純な因果関係は直線関係で、これは線形回帰分析linear regressionを用いて計算できます。最小二乗法を用いて直線をデータに適応させ、直線を定義する傾きslopeと切片interceptを算出します(y = mx + cのmとc)。

4 Comparative statistics

もうひとつのデータ分析上のよくある課題は、ふたつ以上のデータセットを比較して、それらが基本的に同じもの(同じ母集団から得たもの)かどうか、もしくはひとつのデータセットが他とは有意に異なるかどうかを検証するというものです。はじめに、それぞれのデータセットで平均値と信頼区間を計算し、平均値を棒グラフにプロットして信頼区間をエラーバーで描きます。この作業でグループ間の差があるか視覚的にみて気づくことができます。エラーバーがオーバーラップしていなければ、そのデータには有意な差があるに違いないと考えがちですが、これは必ずしも真実ではありません。有意差の有無を確認するには比較のための統計学的検定が必要です。これらの検定の最終的な結果は「帰無仮説」(これは常に「データセット間には有意な差は無い」という仮説になります)が正しい確率probability (P) を求めることです。生物学分野においては、Pが5％未満のときにその差が有意なものであるとみなされます。ですのでP < 5% の時、データセットには有意差があると言うことが出来ます(=帰無仮説は棄却される)。もしP > 5%ならばデータセット間には有意差なし(=帰無仮説が適応)とされます。

t-test

もっとも用いられる比較統計の検定手法がt検定です。これは正規分布に従う二組のデータを比較する時に用いられます。Excelでは以下の式で計算できます。

=TTEST (range 1, range 2, tails, type)

これで直接P値が得られます(t統計量そのものは示されないし知る必要も無い)。Tailsの値は1で片側検定、2で両側検定を行いますが、生物学分野では一般的に両側検定で、符号に関係なく違いを検定します。Typeは1を入れれば対応のあるデータ(同一人物から得た二つのデータセットの比較)、2を入れれば対応のないデータ(別々の個人から得たデータ)の検定です。どちらのt検定も図6に例が示してあります。

f:id:uekent:20180525221200p:plain

Mann-Whitney U-Test

t検定を用いるには連続変数で正規分布するデータである必要があります。そうでないデータ、例えばデータが計測されたものでなく計算されたものであったり、データが非連続であったりする場合は、マン-ホイットニーのU検定を用います。これはノンパラメトリックなt検定みたいなものです。残念ながらExcelはこの検定をサポートしていません。

ANOVA

t検定はふたつのデータセットの比較に限定されるため、多くのグループを同時に比較するにはanalysis of variance (ANOVA)が必要です。ANOVAはExcelのデータ分析パックに含まれています。通常のExcelの一部ではありますが、通常はインストールされていません。(入ってない場合はアドインをインストールします)。図7にANOVAの例を示します。これは3つの異なる麦の収穫量を比較しています。Alphaは0.05にします(これは有意水準5%を意味します)。結果の表の中で重要なのはP値で、これは帰無仮説が成り立つ確率を示しています。この場合の帰無仮説は「どのデータセット間にも差がない」というものです。これはt検定のときのPと同じです。実際二組のデータセットをANOVAで分析して得られるP値は、t検定で得られるものと一致します。P > 5%であれば、どのデータセット間にも有意差はなく(帰無仮説は正しく)、もしP < 5%であれば、少なくともひとつが他と有意に差があることを意味しています。図7のPは0.14%であり、5%よりも小さいので、どこかに有意な差があるということがわかります。ここで次の問題は、「どこに差があるのか」を同定することです。その方法は、この後に事後検定post hoc testを行うというものですが、残念ながらExcelはこれをサポートしていません。でも多くの場合はsummary表や棒グラフから差のあるグループを視覚的に同定することが出来ます。例えば、図7では変数2と3は似ており、変数1が明らかに異なります。したがって、変数1は変数2・3と比較して有意に収穫量が少ないということがわかります。

f:id:uekent:20180525221228p:plain

5 Statistics for frequency data

χ 2検定

ここまで連続変数を扱ってきましたが、生物学分野では時として不連続な頻度データを扱う必要があります。例えば、遺伝子研究における異なる表現型の数や、様々な生息地における生物種の数などです。頻度データでは、通常は平均値や標準偏差は算出できませんしt検定も使えません。代わりにカイ二乗(χ2)検定を用います。これは得られた頻度データを、ある期待されるデータと比較するために用いられます。Excelの式は

=CHITEST (observed range, expected range)

で、帰無仮説が正しい確率Pを返します。この時の帰無仮説は「得られた頻度と期待された頻度に差がない」というものであす。χ 2検定は期待値の算出方法によって3つの異なる使い方があります。

まず期待値を定量的理論から計算する場合で、この時は観測データが理論値と一致するかどうかを検証します(P < 5%であればデータは理論に一致しないということで、P > 5%であればデータは理論通りであるということになります)。生物学分野では定量的理論の例は多くはありませんが、最も有名な例は遺伝的交雑におけるメンデルの法則です。この法則を用いると異なる表現型の出現頻度を予測することが出来ます。図8上にこの例を示します。メンデルの法則から交雑後に花の色は赤と白が3:1で出現することが期待されます。Excel上で観察した数の合計から期待値は簡単に計算でき、P値は53%であり、これは5%より大きいので、この結果はメンデルの法則を支持するものであると言えます。ところで、とても高いP値(>80%)が出た場合はその結果は鵜呑みにしてはいけません。出来すぎた結果は事実かどうか疑わしく、この場合実験に何らかの(故意のもしくは偶発的な)バイアスがかかっている可能性があります。

また別の期待値を得る方法として、すべてのカテゴリーの起こる頻度が同じであると仮定して計算する、というものがあります。この場合、データセット間に差があるのかを検証するために用います(P < 5%であればデータ間に有意な差があることを示し、P > 5%であれば差がないということになる)。この手法はt検定に似ていますが、頻度データで用いることができ、また二つより多い場合も比較することが出来ます。この例を図8下に示します。これは一定の期間に、ある病院で生まれた子供の性別を調べたものです。男の子の方が女の子よりも沢山生まれていますが、果たしてこの差は有意なものでしょうか。この時の期待値は、「男女は同じ数だけ生まれる」と仮定して算出します。するとP値は6.4%であり5%よりも大きいので、男女間に有意な差はないということになります。

f:id:uekent:20180525221251p:plain

χ2-test of association

χ2検定の最後の使用方法は、2つの異なるグループの頻度データ間の関係を調査するというものです。これはχ2-test of associationと呼ばれています(もしくはχ2分割表)。期待値は「あるグループは他のグループの影響を受けない」という仮定の下で計算されます。別の言い方をすると、2つのグループの間に関連があるかどうかを検定するものです。もしP < 5%であれば、2つのグループには有意な関係があり、P > 5%であれば2つのグループは独立していることになります。それぞれのグループは2つ以上のカテゴリーをもち、それぞれに観察された頻度データが入力され分割表を形成します。そしてこの表をコピーし、観測データのマスは期待値データに置き換えられ、期待値は観察データの縦横の合計値を用いて以下の式で計算します:

E = (縦の合計×横の合計 )/全合計

図9に例を示します。異なる50ヶ所を観測し、川の流量(速い/遅いの二つのカテゴリー)を川底の種類の違い(生い茂った海藻/海藻少量/小石/泥の4つのカテゴリー)で比較し、流量と川底の種類に関連があるかどうか検証しています。χ2 Pは1.1%であり5%よりも小さいので、流量と川底の間には有意な関係がある、ということになります。

f:id:uekent:20180525221311p:plain