機械学習 データのばらつきを見る: 標準偏差入門
- 標準偏差とは標準偏差は、データの散らばり具合を示す指標です。平均値だけでは、データの全体像を把握するには不十分です。例えば、二つのクラスの平均点が同じだったとしても、生徒それぞれの点数が平均点に近いクラスもあれば、大きく異なるクラスもあるでしょう。標準偏差は、このようなデータのばらつき具合を数値で表してくれます。標準偏差が小さい場合、データは平均値近くに集中していることを示しています。つまり、データの値が平均値とあまり変わらないということです。逆に、標準偏差が大きい場合、データは平均値から大きく離れて散らばっていることを示しています。これは、データの中に平均値と大きく異なる値が含まれていることを意味します。例えば、ある商品のレビューサイトで、評価の平均点が4だったとします。しかし、標準偏差が大きければ、5と評価した人もいれば、1と評価した人も多いことを意味します。つまり、評価が両極端に分かれている可能性があり、平均点だけでは商品の良し悪しを判断できません。一方、標準偏差が小さければ、ほとんどの人が4に近い評価をしていることになり、評価が安定していることがわかります。このように、標準偏差は平均値だけではわからないデータのばらつき具合を把握する上で非常に重要な指標です。
