こんにちは、d-soloです。今回は私が愛してやまないデータサイエンスとは何かについてのお話です。
近年とても注目度の高い分野であり興味はあるが、いまいち統計学との区別がつかない、という方が多いのではないでしょうか。
本記事では、複雑な話には触れずに、データサイエンスの何が面白いのかにフォーカスして説明します。
つまり、AI関連の研究者が、一般の人向けに話すデータサイエンスの話と思っていただければOKです。
データサイエンスがここ10数年で爆発的に伸びている背景は大きく2つです。この流行を第3次AIブームと言ったりしています。
1. カメラなどのセンサーやインターネットの発達によって、大量のデータを正確に集められるようになったこと。

2. コンピュータも進化し、今まででは非現実的だった処理も可能になったこと。alphaGo(囲碁のAI)がプロ棋士に勝つようになったのもコンピュータのパワーアップの産物です。(もちろん素晴らしいアルゴリズムも大きく貢献しています。)

以上を背景として、今回はデータサイエンスの花形である機械学習について簡単に説明して、データサイエンスの面白さを語ります。
それから、なぜ破壊的な影響力を持つのかを他の分野との違いから説明します。
最後に、データサイエンスとどう付き合っていくべきかを話そうと思います。
ではいきましょう。
目次
機械学習ってなに?
結論から言ってしまうと、人が実社会のデータを説明するような関数の雛形を考えて、実際のデータに雛形をフィットさせることです。
抽象的なので、具体例を出します。(0,0)、(1,2)、(2,4) という点が与えられたとき、これらの点の雛形は f(x)=ax で a=2 という予測が立ちます(f(x)=2x+sin(x)ももちろんありえますが)。
この例では点がデータ、f(x) が学習する関数になります。実社会の問題はもっともっと複雑で様々な要因が絡まっています。
そのため研究者はできる限りノイズを除去しながら、完璧にはわからないまでも雛形 f(x) を予想します。
実際のデータに f(x) を適用して、データに合うように関数を調整します(例では a の値)。
この過程を学習と呼びます。
データサイエンスの面白さとは
まず、一般的な学問の面白さは「世の中はこうなっているのではないか、と予想・仮定し、数学等を駆使してアルゴリズム(手順)を作り、実際に実験して検証すること」です。
データサイエンス(およびIT業界)の大きな特徴は、ドッグイヤーであることです。
犬が人間の歳に換算すると7倍早く老化することから、このように言われています。
本当に7倍かどうかは疑問ですが、IT業界の変化は他業種に比べて変化の周期が速いと言えます。
変化が激しく、常にワクワクできることがデータサイエンスの特に面白いところです。
また研究成果の情報公開も多く、世界全体で情報技術を推進しようという気風があるところも面白いところだと思っています。
なぜ破壊的な影響力を持つのか
これは他の分野との違いを考えることで見えてきます。
強み1:複製・拡散のコストが圧倒的に低い
プログラムや画像、動画は簡単にコピーできる上に、一瞬で全世界にインターネットを使って送信することができます。

他分野の例として衣服(繊維)を考えると、まず数を増やすには原料を純粋に増やす必要があります。
量や輸送距離が増えると輸送コストが増します。
化学や生物においても、薬品を多く作ろうとするとその分の原料が必要がになります。
このことからデータと比べて複製にも大きなコストがかかることがわかります。
つまり、データは他の分野と比べて簡単に多くのコピーを多くの人に届けることができます。
強み2:個人個人にフィットした(パーソナライズした)ものを簡単に用意できる
YouTubeのホームが画面を思い浮かべてもらえるとわかりやすいと思います。 それぞれの視聴履歴から最適な画面が作られているはずです。 これはたくさんの利用者のデータを使って、学習した結果です。
関数で表現すると、あなたの視聴履歴 x (ここではベクトルとしましょう) を入力して、次にみる確率の高い動画を返す関数 f(x) が設計されています。
例えば、A さんと B さんと C さんは似た視聴履歴を持っているとき、A さんへのおすすめ動画には A さんはまだ観ていないが B さんと C さんが観ている動画をあげるべきでしょう。
実際に使われている関数やアルゴリズムはわかりませんが、Google の天才たちが様々な仮定を考えて、設計されているはずです。
このような緻密な調整はデータだからできるという側面もあります。
例えば衣服の例をもう一度使うと、一人ひとりに最適なサイズの服を提供したいですが、多くのパターンを作れば作るほどコストがかかってしまいます。
また店頭で一人ずつオーダーメイドを作るとなると時間もかかってしまいます。
データを使うことによって、このパーソナライズから提供までを自動でかつ、高精度で行えます。
この辺りが統計学との大きな差です。
データの概形(要約)を考えることが統計学の肝なので、各個人(対象)に合わせて調整(学習)する機械学習とは異なるといえます。
最後に
長々と話してきましたが、
データの背後にどのような現象があるのかを検討し、実験を繰り返すことで有用性を確かめるプロセスが面白いところだと思います。
デジタル化によって、かつてないほど多くの人の多くの行動を観測し、記録できるようになりました。
ウイルスの蔓延によって、その速度はさらに加速されたように思います。
データサイエンスは、今後も私たちの生活に深く入り込んでくることになると思います。
最後に、良い点だけでなく、注意して欲しい点を話しておきます。
デジタルの世界で私たちは毎日のように何かをおすすめされるようになりました。
しかし、それはあなたにとっての利益ではなく、運営側にとっての利益の場合もあります。
自分で選んでいるように見えて影から誘導されていたり、何度も目にすることによる刷り込み効果もあるでしょう。
おすすめをクリックしたくなる気持ちはわかります。
ただ、それがどういう狙いで表示されているかを考えてみてください。
時々はそのシステムについて疑問を持つことによって
適切な距離を保ちながら、データサイエンスと付き合っていくことを強く推奨します。
本記事を通して、少しでもデータサイエンスに対する興味が湧いたなら幸いです。
本サイトでは、私たちが実際のデータを用いてYouTube のチャンネル分析も行っていますので、ぜひそちらの記事ものぞいて行ってください。