データサイエンティストという職業に関する違和感

Picture large978 4 87311 652 5

データサイエンティストとは

データサイエンティストとは、統計学に関する専門スキルや知識を駆使し、膨大なデータ(ビッグデータ)に対して仮説を立てて解析して、最適化を目指す人々のことを指すと言われています。。オンライン広告(DSP・SSP・RTB)や、データマイニング、マーケティング、レコメンデーション、ソーシャルデータ解析、CRMなど幅広い分野でデータサイエンティストが必要とされています。

技術的には、HadoopでHiveのクエリを投げて解析したり、Rで多変量解析したり、機械学習系のアルゴリズムを習得している人達です。それにプラスで業務知識と統計学に関する理解が求められます。パターン認識とか計量時系列モデルとかランダムフォレストとか、従来のアプリエンジニアとは違った統計学アプローチでビッグデータの解析にあたるのが、このデータサイエンティストと呼ばれる人達です。

最近ですが、一般社団法人データサイエンティスト協会も設立されました。データサイエンティストのスキル・知識を整備して認定制度を整備するそうです。私も時流に乗ってシャレで「データサイエンティスト」というワードをブログ名に冠しています。

そもそもサイエンスとは何か

そもそもデータサイエンティストについてお話しする前に、科学とは何でしょうか。以前のブログ記事で「科学とは何だろう?」という記事を書いたので、そちらを参照して頂ければと思います。

科学とは何か

科学というと、何だかとても難しい言葉を使って、難しいことをやっているようなイメージがありますね。でも、科学とは本来そんなに難しいものではありません。小学校や中学校の理科の授業を思い出してみてください。小学校や中学校の理科の授業では、様々な「実験」をした記憶があると思います。ヘチマを育てたり、リトマス紙に酢をつけてみたり、豆電球と電池の配列を変えてみたり…。そういう実験をするとき、皆さんはどんな目的を持っていたでしょうか?

先生は実験前に皆さんに何かプリントを配って、「実験をしたらこういう結果になる」ということを説明したり、「実験によってどういう結果になると思うか、自分の考えを書きなさい」などのような指示を出したりしたと思います。そして、本当にその結果が得られるかどうかを検証するために、実験が行われたと思います。

それが科学です。科学とは、仮説を立てて、その仮説が本当に正しいのかどうかを様々なデータや論理を使って検証する行為です。このことは、自然現象の解明を目指す自然科学でも、社会現象の解明を目指す社会科学でも、変わりはありません。

 
科学に必要な反証可能性

ただ、それだけではまだ充分とは言えません。科学には、「反証可能性」というものが必要です。たとえば、「明日世界は滅亡します。私の神様が、枕元でそのように告げてくださったからです」と主張する人がいたとします。この人の言っていることは科学的でしょうか? これは科学的とは言えません。なぜなら、神様が枕元で告げたとするデータや論理は、その人以外の誰も本当かどうか再検証することができないし、そのため、論理的に反論することができないからです。誰もが検証できるようなデータや論理ならば、「そのデータは古いから、最新のこちらのデータの方が正確だよ」とか「その論理ではこういう状況を説明できない」などの反論を行うことができます。このように科学は、反証可能性を認めつつ相互に欠点を補い合いながら発展してきました。

科学とはカール・ポパーが主張するように反証可能性によって発展してきました。反証可能性がなければ、それは科学とは言えません。ここには具体的にはデータの公開も含まれます。ビッグデータが企業の中で閉じられていて、誰もが後から追加検証できない限り、それは別な人から同じ科学を用いた反証を受けることが出来ず、ビッグデータの解析にいかに統計学のアプローチが使われていても、その研究成果はサイエンスではないのです。

また、科学は反証可能性を維持しながら発展してきたので、データサイエンティスト協会が進めているデータサイエンティストのスキル・知識を整備しようという方針も滑稽そのものです。ポパーの論敵のトーマス・クーンが主張するように、科学は不定期にパラダイム・シフトを起こすことによって発展しており、現在のサイエンスの主流は、あくまで一定の反証可能性を持った、現代の科学者の多くが確からしいと信仰しているものに他なりません。つまり、この認定制度ではガリレオにような人物は評価されないということです。

科学は研究室の話だけではない

そして、私達は「知ること」に喜びを感じる素敵な生き物でもあります。「科学者」を意味する”scientist”という単語は、1840年頃にヒューエルという人が使い始めたのが起源と言われ、実はまだ起源の浅い言葉です。では、それまでの科学者は何と呼ばれていたかというと、それぞれに興味のある分野を探求した「哲学者」と呼ばれていました。この考え方の名残は、現在でも「博士」を意味する”Ph.D.”の表記にも残っています。”Ph.D”の”Ph”は、”Philosophy”の略、つまり「哲学」の略です。科学者はごく限られた人しかなれませんが、知る喜びを忘れていないならば、人は誰もが哲学者(元々の意味の科学者)になれます。科学は決して遠い研究室のお話だけではありません。

以前の「科学って何だろう」の記事では、科学とは必ずしも研究室だけのものではないということを書かせて頂きました。実際、世の中には市井の研究者は沢山いますし、哲学することをやめないならば、人は誰もが科学者になり得ます。しかし、データサイエンティストという呼称は、閉鎖的な一部の者のみが許された特権資格であるかのように語られています。私達はそのように科学を扱おうとする人々に断じてNo!を突きつけるべきです。このブログのタイトルの「データサイエンティストのタコ部屋」も、そのような問題意識から、データサイエンスを茶化してネーミングしました。

データサイエンティスト達は何をやろうとしているのか

以前、Suicaの利用履歴が他社のマーケティングデータの解析に利用されそうになって、ビッグデータのプライバシーが改めて問題になりました。しかし、本当は気づかないだけで、身近な色々な私達の行動が既にビッグデータとして解析されてマーケティングに利用されています。例えば2013年の総選挙でYahoo!Japanは選挙結果の当落予想を選挙前に公開しましたが、あのデータの元になっているのは私達の検索履歴です。私達の検索キーワードが何の断りもなしに全てくまなく収集され、企業のアピールやマーケティングに活用されようとしているのです。最近のTwitterやはてなのAPIを使って機械学習のデータを提供している一部アプリも同様です。私達の大事なプライバシーが赤裸々に「データサイエンティスト」達の飯の種にされようとしているのです。

もちろん、今後の社会の豊かな発展のためにはビッグデータの解析は不可欠なものがあります。データサイエンティスト全ての行為を一括りに批判するのは間違っていると言えるでしょう。しかし、私達はサイエンスの定義が一部の人によって歪められようとしていること、そしてデータサイエンティストとプライバシーの問題に関して無関心ではいられないことに注意する必要があるでしょう。

関連記事