2.1. 機械学習をこれから始める人へ

基本的な勉強の方針

機械学習は高校生でも理解できるような簡単な手法から、トップ研究者でも一筋縄では理解できない非常に高度な手法まで幅広く存在している。また扱う対象や問題も様々で縦にも横にも広い分野なので、勉強しようと思えば次のステージがいくらでも現れる。

勉強の仕方は各人の自由だと思うが、基本的には

  1. 簡単な手法をたくさん理解してレパートリーを増やしておく

  2. 高度な手法の理解に努めて数学的な基礎体力を向上させる

という二つの行動をバランスよくこなす必要がある。問題に直面したときの第一手としては自分ですぐに試せる範囲の簡単な手法を使うことになるし、改善する時間が与えられたならばより高度な手法を試していかねばならないからである。

手法だけでなくデータとも向き合う

機械学習はどんな手法でも集めたデータの質と量からシビアに影響を受ける。言い換えれば、質のよいデータを集めれば集めるデータは少なくて済むし、古典的で単純な手法でうまくいくケースも多いということは常に念頭に置いておくとよい。

たとえば人々の身体の情報を日々記録して糖尿病やその可能性のある患者を見つける問題を考えたとき

  • 身長、体重、血圧、体温を1日に3回計測する

  • 血糖値を1週間に1回計測する

では後者のデータを用いたほうが精度よく検出できるであろう。また、物体が高温かどうかを確かめる問題を考えるとき、

  • 普通のカメラで様々な物体を撮影した数万枚の画像

  • 赤外線カメラの1枚の画像

では後者があれば赤外線の輝度を見るだけで機械学習など使わなくても十分なのである。他にも、誰かに対して広告を提供するならば

  • その人がどんなWebサイトを見ているか

  • その人が実際に何を買ったかの領収書

では後者の情報のほうがより純度の高い情報といえる。実際にGoogleはGmailで受信されたメールの中から、ネット通販やネット予約の注文確認メールを抽出して、誰がいつどんなものをどれくらいの頻度で購入したか/しているかのデータを収集している。これは以下のリンクからも確認できる。

https://support.google.com/accounts/answer/7673989

意味のないデータを大量に集めていてはどんなに高度な手法を用いても有益な結果は得られないし、クリティカルな情報を含むデータを用いるならばそこまでたくさんのデータを集める必要はない。そこらの石クズをいくら溶かして金属を取り出すことはほぼ不可能だが、質のよい金鉱石を溶かして精錬すれば少ない量の鉱石で多くの金を取り出せるのと同じである。

機械学習というとその手法についてクローズアップされがちだが、現実問題への応用を考えるときは

  1. どんなセンサーや機材を用いてどんなデータを集めるか

  2. 現象の裏側にどんな関係性がありどんなモデルとして捉えるか

  3. どの手法を適用するか

をバランスよく考えて、

  1. 集めるデータを検討する

  2. モデルに当てはめて実際に分析する

  3. どの情報が課題解決に有用そうか検証する(1に戻る)

という試行錯誤のサイクルが可能な環境を作ってゆかねばならない。

Last updated