機械学習 データの関係性を紐解く:ピアソンの積率相関係数
- 二つのデータの関係性を示す数値私たちは身の回りで様々なデータを見かけます。例えば、人の身長と体重、一日の気温とアイスクリームの売上など、一見関係がありそうなものから、全く関係なさそうなものまで様々です。これらのデータの関係性を数値で表す方法の一つに、ピアソンの積率相関係数があります。ピアソンの積率相関係数は、二つのデータの関係性の強さとその方向を、-1から1までの数値で表します。 1に近いほど正の相関が強く、例えば気温が上がるとアイスクリームの売上も上がるといった関係性を示します。逆に、-1に近いほど負の相関が強く、気温が下がると暖房器具の売上は上がるといった関係性を示します。そして、0に近い場合は、二つのデータ間に相関関係はほとんど見られないと言えるでしょう。この相関係数は、様々な場面で活用されています。例えば、健康診断の結果から生活習慣病のリスクを予測したり、商品の売上予測に役立てたりと、その応用範囲は多岐に渡ります。しかし、相関係数が高いからといって、必ずしも一方がもう一方の原因であるとは限りません。あくまでも、二つのデータ間に関係性が見られるというだけであることに注意が必要です。
