分散 | AIビジカレッジ

大量データも怖くない！ウォード法入門

- ウォード法とはウォード法は、膨大なデータの中から似た性質を持つものを探し出し、グループ分けを行う際に非常に役立つ手法です。階層的クラスタリングと呼ばれるこの手法は、例えるならば、無数の点が集まった地図を想像してみてください。ウォード法は、この地図上で近い点同士を線で繋いでいき、最終的にはいくつかのまとまった地域に分けていきます。重要なのは、ウォード法が単に距離の近さだけでグループ分けをするのではないということです。それぞれのグループの中で、点がどれくらい密集しているか、つまり散らばり具合を最小限にするようにグループ分けを行います。具体的には、新しいグループを作る際に、どの点同士を組み合わせれば、グループ内の点の散らばりが最も小さくなるかを計算しながら進めていきます。そのため、他の階層的クラスタリングの手法と比べて、より均等な大きさのグループを作りやすいという特徴があります。この手法は、マーケティング分野での顧客分析や、生物学における遺伝子解析など、幅広い分野で応用されています。大量のデータに隠された構造や関係性を明らかにする上で、ウォード法は強力なツールと言えるでしょう。

2024.07.12

機械学習

データのばらつきを見る: 標準偏差入門

- 標準偏差とは標準偏差は、データの散らばり具合を示す指標です。平均値だけでは、データの全体像を把握するには不十分です。例えば、二つのクラスの平均点が同じだったとしても、生徒それぞれの点数が平均点に近いクラスもあれば、大きく異なるクラスもあるでしょう。標準偏差は、このようなデータのばらつき具合を数値で表してくれます。標準偏差が小さい場合、データは平均値近くに集中していることを示しています。つまり、データの値が平均値とあまり変わらないということです。逆に、標準偏差が大きい場合、データは平均値から大きく離れて散らばっていることを示しています。これは、データの中に平均値と大きく異なる値が含まれていることを意味します。例えば、ある商品のレビューサイトで、評価の平均点が4だったとします。しかし、標準偏差が大きければ、5と評価した人もいれば、1と評価した人も多いことを意味します。つまり、評価が両極端に分かれている可能性があり、平均点だけでは商品の良し悪しを判断できません。一方、標準偏差が小さければ、ほとんどの人が4に近い評価をしていることになり、評価が安定していることがわかります。このように、標準偏差は平均値だけではわからないデータのばらつき具合を把握する上で非常に重要な指標です。

2024.07.12

機械学習

データの要約：代表値を使いこなそう

{データ全体を把握するために、私たちはその特徴を捉える必要があります。しかし、データ量が膨大になると、一つ一つを詳しく見ることは現実的ではありません。そこで、「代表値」を用いることで、複雑なデータを要約し、全体的な傾向を把握することが可能になります。代表値とは、データの特徴を代表する値であり、例えば、「平均値」はデータの中心的な位置を示します。他に、データの分布の中央を示す「中央値」や、最も多く出現する値を表す「最頻値」など、様々な種類があります。これらの代表値を見ることで、データ全体がどの程度の大きさなのか、どのような値が集まっているのかを把握することができます。例えば、ある商品の販売データから平均値を計算すれば、売上の一般的な傾向を掴むことができますし、中央値を用いることで、極端に高いまたは低い値に影響されずに、より実態に近い傾向を把握することも可能になります。

2024.07.12

機械学習