機械学習 データの要約:代表値を使いこなそう
{データ全体を把握するために、私たちはその特徴を捉える必要があります。しかし、データ量が膨大になると、一つ一つを詳しく見ることは現実的ではありません。そこで、「代表値」を用いることで、複雑なデータを要約し、全体的な傾向を把握することが可能になります。代表値とは、データの特徴を代表する値であり、例えば、「平均値」はデータの中心的な位置を示します。他に、データの分布の中央を示す「中央値」や、最も多く出現する値を表す「最頻値」など、様々な種類があります。これらの代表値を見ることで、データ全体がどの程度の大きさなのか、どのような値が集まっているのかを把握することができます。例えば、ある商品の販売データから平均値を計算すれば、売上の一般的な傾向を掴むことができますし、中央値を用いることで、極端に高いまたは低い値に影響されずに、より実態に近い傾向を把握することも可能になります。
