機械学習 最適なモデルを選択するには?:赤池情報量基準入門
- モデル選択のジレンマデータ分析の現場では、目の前の現象を紐解くため、最適なモデルを探し求める作業が日々行われています。例えば、企業が将来の売上を予測する場合を考えてみましょう。過去の売上データと広告費用の関係を分析するモデルを構築するとします。この時、単純に「広告費を増やせば売上も比例して増える」と考えるか、あるいは「ある一定額を超えると効果が薄くなる」といった複雑な関係性を考えるか、迷う場面が出てきます。前者は単純な直線で表せるモデル、後者は複雑な曲線を用いるモデルと言えるでしょう。直線的なモデルは理解しやすく、扱いやすいという利点があります。しかし、現実の複雑な現象を捉えきれない可能性も孕んでいます。一方、曲線を用いたモデルは現実に起こりうる様々な変化を表現できますが、複雑であるがゆえに解釈が難しく、扱いにくいという側面も持ち合わせています。このように、データ分析の現場では「データへの当てはまりの良さ」と「モデルの複雑さ」の間で常に葛藤が存在します。これが「モデル選択のジレンマ」と呼ばれるものです。単純すぎても、複雑すぎてもいけない。現実を的確に捉え、かつ扱いやすいモデルを選択することが、データ分析の成功には不可欠なのです。
