はじめに
統計について考える際に、P値(P value)は何度も目にする指標です。
最近では、特に医学論文の領域で、「P値だけに左右されるな!」という言説を聞いたことがある人は多いのはないでしょうか。
しかし、「P値とは何か?」と聞かれて、すんなり答えられる人は少ないと思います。
是非この記事で、P値の基本的な意味について解説しますので、参考にして下さい。
P値とは?
P値(P value)は、「特定の統計モデルのもとで、データの統計的要約(ex. 2グループ比較での標本平均の差)が、観察された値よりも極端な値をとる確率」を指します。
ここでいう統計モデルとは別の記事で解説していますので、参照して下さい。
具体例を当てはめて解説してみます。
「A高校とB高校の生徒が二人います。ある模試を受けたときの数学の点数が、60点と70点でした。本人達は学校のカリキュラムの違いによる点数差だと思っていますが、あなたは普段の二人の勉強量の差だと思っています。白黒つけるために、あなたは二人のクラスの模試の点数一覧を入手しました。二人の点数の差が、カリキュラムの影響なのか個人の実力なのかを統計的に検証しましょう。」といった、ありそうでなさそうな状況を考えてみます。
「2つの高校における数学の点数には差がないと仮定します(=統計モデル)。二人が在籍するクラスの平均点(=データの統計的要約)を統計モデルを用いて計算します。その際に二人の点数差(=観察された値)が、モデルで計算した平均点よりも大きい(=極端な値)ときの確率」がP値になります。
一般的に、P値が小さいほどデータと帰無仮説の矛盾の程度が大きいとされます。
(上記の例えでは、二つの高校の数学の点数には差がないという仮定が帰無仮説です)
しかし実際のところ、P値が小さいということは統計モデルの仮説のどれかが誤っているということしか言えません。
例えば、二つの高校の数学の点数に差はないことが真実だとしても、二人が在籍するクラスが理系と文系で分かれていたら、数学の平均点に差がついてしまいますよね?
この場合は、ランダムに抽出されているという仮説が誤っているためです。
帰無仮説は多くの統計モデルの仮定の内の一つに過ぎないので、「P値が小さい≠帰無仮説が誤っている」という関係を覚えていてください。
冒頭で紹介した「P値だけに左右されるな!」というのはこのためです。
まとめ
今回はP値の定義について解説してみました。具体例で考えれば、そこまで難しい話ではありませんので、安心してください。
次回、後編ではP値の解釈における具体的な注意事項について解説したいと思います。
また次回!