数学 | AIビジカレッジ

意外と奥が深い？モード値を解説

- モード値とはモード値は、あるデータの集まりの中で最も多く出現する値のことです。データの分布の中心を表す指標の一つであり、平均値や中央値と合わせて用いられます。平均値はデータの合計値をデータの数で割った値、中央値はデータを大きさ順に並べたときに中央に位置する値であるのに対し、モード値は出現頻度に着目している点が特徴です。例えば、10 人がテストを受けた結果、点数が {50, 60, 60, 70, 70, 70, 80, 80, 90, 100} だったとします。この場合、70 点が 3 回出現しており、他のどの点数よりも出現回数が多いです。したがって、このデータのモード値は 70 点となります。モード値は、データの種類を問わず、数値データだけでなく、性別や出身地など qualitative なデータにも適用できます。アンケート調査で最も多い回答、商品の売上ランキングで最も売れた商品などを知る際にも、モード値の概念が役立ちます。モード値は、データの傾向を把握し、特徴を捉えるために非常に有用な指標と言えるでしょう。

2024.07.12

機械学習

マンハッタン距離：碁盤の目の距離

- マンハッタン距離とはマンハッタン距離は、二つの地点間の距離を表す指標の一つですが、普段私たちが使っている距離の測り方とは少し異なります。私たちが普段使っている距離、つまり地図上で二点間を直線で結んだ時の長さは、ユークリッド距離と呼ばれています。一方、マンハッタン距離は、碁盤の目のような格子状の道の上を移動することを想定して計算されます。例えば、目的地まで東西に4ブロック、南北に3ブロック移動する必要があるとします。この場合、マンハッタン距離は東西の移動距離と南北の移動距離を足し合わせたもの、つまり4+3=7ブロックとなります。ユークリッド距離のように斜めに移動することはできません。マンハッタン距離という名前は、ニューヨーク市のマンハッタン島に由来します。マンハッタン島は碁盤の目状に区画整理されており、東西南北に走る道路が多いことが特徴です。そのため、目的地までの距離を測る際に、マンハッタン距離が用いられることが多かったことから、この名前が付けられました。マンハッタン距離は、都市計画や物流、経路探索など、様々な分野で応用されています。ユークリッド距離に比べて現実の道路網を反映しやすいため、より実用的な距離として利用されています。

2024.07.12

機械学習

データのばらつきを見る: 標準偏差入門

- 標準偏差とは標準偏差は、データの散らばり具合を示す指標です。平均値だけでは、データの全体像を把握するには不十分です。例えば、二つのクラスの平均点が同じだったとしても、生徒それぞれの点数が平均点に近いクラスもあれば、大きく異なるクラスもあるでしょう。標準偏差は、このようなデータのばらつき具合を数値で表してくれます。標準偏差が小さい場合、データは平均値近くに集中していることを示しています。つまり、データの値が平均値とあまり変わらないということです。逆に、標準偏差が大きい場合、データは平均値から大きく離れて散らばっていることを示しています。これは、データの中に平均値と大きく異なる値が含まれていることを意味します。例えば、ある商品のレビューサイトで、評価の平均点が4だったとします。しかし、標準偏差が大きければ、5と評価した人もいれば、1と評価した人も多いことを意味します。つまり、評価が両極端に分かれている可能性があり、平均点だけでは商品の良し悪しを判断できません。一方、標準偏差が小さければ、ほとんどの人が4に近い評価をしていることになり、評価が安定していることがわかります。このように、標準偏差は平均値だけではわからないデータのばらつき具合を把握する上で非常に重要な指標です。

2024.07.12

機械学習

MedAD：データの中心を知るための指標

- MedADとはMedADは、「中央値絶対偏差」の略称で、データのばらつき具合を測る統計量の一つです。データの中心からどれくらいデータが離れているかを表しており、データ分析において重要な役割を担っています。-# ばらつきの指標としてのMedADデータのばらつき具合を表す指標としては、一般的に「分散」や「標準偏差」が用いられます。しかし、これらの指標は、データの中に極端に大きい値や小さい値（外れ値）があると、その影響を大きく受けてしまうという欠点があります。一方、MedADは、データの中央値からの絶対偏差の中央値を計算するため、外れ値の影響を受けにくいという特徴があります。これは、MedADが中央値を基準に計算されるためで、極端な値の影響を受けにくい中央値の特性が、MedADにも反映されているためです。-# MedADの活用例MedADは、様々な場面で活用されています。例えば、製造業において、製品の品質管理を行う際に、製品の寸法や重量のばらつきを調べるために用いられます。また、金融業界では、株価や為替レートの変動リスクを分析する際に利用されています。-# まとめMedADは、外れ値の影響を受けにくいという点で、分散や標準偏差よりも頑健なばらつきの指標と言えます。そのため、データ分析を行う際には、MedADも合わせて算出することで、より正確にデータのばらつき具合を把握することができます。

2024.07.12

機械学習

平均値を求める: Mean の基礎

「平均」は、私たちの日常で非常によく耳にする言葉です。例えば、テストの平均点、一日の平均気温、商品の平均価格など、様々な場面で「平均」という言葉が使われています。英語では、この「平均」は一般的に「Average」と訳されます。しかし、統計学や数学の分野では、「Average」ではなく「Mean」という言葉が「平均」の意味で使われます。では、「Average」と「Mean」は、実際にはどのように使い分けられているのでしょうか？簡単に言うと、「Average」は一般的な言葉としての「平均」を指し、「Mean」は統計学や数学における「平均値」を指します。「Average」は、日常会話の中で使われることが多く、特に厳密な定義は必要ありません。例えば、「今日の気温は平均くらいだね」といった会話では、「Average」という言葉が適切です。一方、「Mean」は、統計データなどを扱う際に使われる専門用語です。これは、データを全て足し合わせ、データの個数で割ることで算出されます。例えば、テストの点数を分析する際や、実験データの平均値を求める際には、「Mean」という言葉が使われます。つまり、「Average」と「Mean」は、どちらも「平均」という意味を持つ言葉ですが、使われる場面や厳密さに違いがあると言えるでしょう。

2024.07.12

その他

予測精度を測る MADとは

- MADとはMADは「平均絶対偏差」の略称で、英語ではMean Absolute Deviationと表記します。これは、あるデータ群における、予測値と実測値との間の差（偏差）の絶対値を平均した値です。つまり、予測モデルが現実のデータと比べて平均的にどの程度ずれているのかを示す指標と言えます。MADは、平均偏差や絶対偏差と呼ばれることもあり、主に予測モデルの精度を評価するために利用されます。MADの値が小さいほど、予測値と実測値のズレが小さく、予測精度が高いことを意味します。例えば、ある商品の売上予測モデルがあるとします。このモデルを使って、ある月の売上を予測した結果、MADが10だったとします。これは、予測値と実際の売上の差が平均で10個分あることを示しており、MADが5のモデルと比べると予測精度が低いと言えます。MADは、計算が容易であるため、手軽に予測モデルの精度を評価できるという利点があります。しかし、外れ値の影響を受けやすいという欠点も持ち合わせています。そのため、MADだけで予測モデルの良し悪しを判断するのではなく、他の指標も合わせて総合的に判断することが重要です。

2024.07.12

機械学習

調和平均：逆数の世界を探る

- 調和平均とは調和平均は、私たちの身の回りで意外と多く活用されている統計量です。平均値と聞いて、多くの人が思い浮かべるのは、全てのデータを足してデータの数で割る算術平均でしょう。しかし、データの特性や分析の目的によっては、算術平均とは異なる種類の平均値を用いる方が適している場合があります。その代表例と言えるのが調和平均です。調和平均は、特に速度や効率など、比率や割合といった逆数の関係性を持つデータを扱う際に有効です。例えば、ある一定の距離を往復する際、行きと帰りで速度が異なる場合に、平均速度を求めようとすると、単純に算術平均を用いるのは適切ではありません。なぜなら、行きと帰りで移動に要する時間が異なるからです。このような場合に調和平均を用いることで、移動距離全体に対する真の平均速度を算出することができます。調和平均は、一見すると複雑な計算式のように思えますが、その本質は、逆数の平均値を求め、それを再び逆数にするという、極めてシンプルな考え方です。この計算方法によって、データのばらつきが大きい場合や、極端な値が含まれている場合でも、より安定した平均値を算出することができます。調和平均は、算術平均や幾何平均と並んで、代表的な平均値の一つです。それぞれの平均値には異なる特性と用途があるため、分析の目的に最適な平均値を選択することが重要となります。

2024.07.12

機械学習

関係性の強さを測る！相関係数の基礎知識

- 二つの値の関係性を示す指標データ分析において、異なる種類のデータ同士の関連性を探ることは非常に重要です。例えば、夏の気温上昇とアイスクリームの売上増加のように、一見関係なさそうな事象同士にも繋がりが見つかることがあります。このような関係性を明らかにすることで、将来の予測やより良い戦略の立案につなげることが可能になります。二つの値の間の関係性の強さや方向性を数値で表す指標として、相関係数が広く用いられています。相関係数は-1から1までの値を取り、1に近いほど正の相関、-1に近いほど負の相関が強いことを示します。正の相関とは、一方の値が増加するともう一方の値も増加する関係性を表し、負の相関は反対に、一方の値が増加するともう一方の値は減少する関係性を表します。例えば、気温とアイスクリームの売上には正の相関があると予想されます。気温が上昇するとアイスクリームの売上が増加するからです。一方、勉強時間とテストの点数も正の相関を持つと考えられます。勉強時間が長くなるとテストの点数も高くなる傾向があるからです。相関係数を用いることで、データ分析の初期段階において、注目すべき関係性を見つけることが容易になります。ただし、相関係数はあくまでも二つの値の線形な関係性を表す指標であることに注意が必要です。つまり、相関係数が低いからといって、二つの値の間に全く関係性がないとは言い切れません。場合によっては、複雑な非線形な関係を持っている可能性もあります。

2024.07.12

機械学習

つながりを紐解く: グラフ理論の世界

- グラフ理論とはグラフ理論とは、物事の関係性を図形的に表現し、その性質や構造を分析する数学の一分野です。私たちの身の回りには、一見複雑に見える関係性が数多く存在します。例えば、人と人とのつながりや、場所と場所の距離、情報と情報の関連性などです。グラフ理論を用いることで、これらの複雑な関係性を「点」と「線」で単純化し、視覚的に捉えることができます。「点」は対象物を表し、「線」は対象物同士の関係性を表します。例えば、人と人との関係をグラフで表す場合、「人」を「点」で表し、「友人関係」を「線」で結ぶことで、誰が誰と友達なのかが一目でわかるようになります。このように、グラフ理論は複雑な関係性を単純化することで、問題の本質を見抜きやすくする役割を果たします。さらに、グラフ理論には、経路探索、ネットワーク分析、最適化問題など、様々な問題を解くための豊富なアルゴリズムが用意されています。これらのアルゴリズムを用いることで、例えば、最も効率的な移動経路を見つけたり、複雑なネットワークの構造を分析したり、資源を最適に配分する方法を見つけたりすることが可能になります。グラフ理論は、情報科学、社会科学、自然科学など、幅広い分野で応用されており、現代社会において非常に重要な役割を担っています。

2024.07.11

その他

データの中心を掴む: 最頻値とは

- 最頻値とは何か最頻値とは、あるデータの集まりの中で、最も多く出現する値のことを指します。これは、統計学においてデータの分布の特徴を掴むために用いられる、基本的な指標の一つです。例えば、10人の生徒に行ったテストの点数を例に考えてみましょう。点数の結果は、50点、60点、60点、70点、70点、70点、80点、80点、90点、100点であったとします。この場合、70点が最も多く、3回出現しています。そのため、このデータにおける最頻値は70点となります。最頻値は、データの中心的な傾向を示す値の一つとして、平均値や中央値と合わせて用いられることが多くあります。しかし、データの分布によっては、最頻値が必ずしも中心的な値を表すとは限りません。例えば、一部の値だけが極端に多く出現する場合には、最頻値はその値に偏った値を示すことになります。最頻値は、計算が容易であるため、手軽にデータの傾向を把握したい場合に有効な指標と言えるでしょう。特に、アンケート調査などのように、選択肢が限られたデータ分析においては、頻繁に用いられます。

2024.07.11

機械学習

幾何平均：比率や成長率を扱う指標

- 幾何平均とは幾何平均は、データのばらつきを考慮に入れて、平均的な変化率を把握したい場合に用いられる指標です。私たちの身近にも、平均という言葉は溢れていますが、一般的には、全ての数値を足して、その合計値を数値の個数で割った算術平均を指すことが多いでしょう。しかし、幾何平均は、算術平均とは計算方法が異なります。幾何平均は、数値を全て掛け合わせて、その積のn乗根を求めることで算出されます。ここで、nはデータの個数を表します。例えば、2、4、8という3つの数値があるとします。これらの幾何平均を求める場合、まず、2 × 4 × 8 = 64を計算します。そして、データの個数が3なので、64の3乗根を求めます。その結果、幾何平均は4となります。幾何平均は、成長率や変化率のように、比率で表されるデータの平均値を算出する際に特に有効です。これは、幾何平均が、データ全体の積を考慮するため、極端な値の影響を受けにくいという特徴を持つためです。

2024.07.11

機械学習