ちょっと前に、
「今溜まってるデータを使って新しい発見とかできないかな。データマイニングとか使ってさ。」
ってお話をされて、1週間くらい調べたり本を読んだりして自分なりにいろいろ考えてみました。
■情報の垂れ流しから情報の集積へまず歴史的な流れから。
歴史
データマイニングの発展には、大量のデータ蓄積が可能となったことが直接的に関係している。デジタル形式でのデータの収集は、コンピュータを用いてデータ解析をすることを念頭に置いて1960年代には既に行われつつあった。リレーショナルデータベースとその操作用の言語SQLが1980年代に出現し、オンデマンドで動的なデータ解析が可能となった。1990年代に至り、データ量は爆発的に増大した。データウェアハウスがデータの蓄積に用いられ始めた。 これに伴い、データベースにおける大量データを処理するための手法としてデータマイニングの概念が現れ、統計解析の手法や人工知能分野での検索技術等が応用されるようになった。
[データマイニング - Wikipedia]より引用
1980年代に出現し、オンデマンドで動的なデータ解析が可能となった。
たぶんこれが最初のデータマイニングが流行した時代なんでしょうね。
…けど、予想以上に流行らなかったようで。
1990年代に至り、データ量は爆発的に増大した。
それが変わる瞬間がこのタイミングでしょうかね、データマイニングが拡がったのは。
拡がった理由としては、
情報コストの低価格化(HDDや半導体の低価格化)
Web2.0(笑)の広がりによるデータ蓄積の容易化
こんなとこですか?
“情報を集めやすくなった”ことによって“集まった情報を活用したい”という欲求に拍車がかかって、
データマイニングに焦点が集まったんですね、わかります。
■ホントにデータマイニングで新しい発見してる人っているんですか?わかりません><でも、その溜めた情報を巧いこと利用して成功してるってお話はあんまり聴きません。
自分が思いついたのってPOSシステムぐらいかな?
何でだろう。
例えば、SPSSだったりSASだったり、統計解析からデータマイニングまでするツールがある。
Web系でもBusinessObjectとかHyperionとかのレポーティングからデータマイニングに近いことまで
対応してるようなツールもある。
きっとこういうのを導入して何かしら成功を収めはじめてるものかと思いきや…
事例を聴いたことがない。
確かにBIを使って…って事例はいくつか見つけたけど、データマイニングの事例ってあるんだろうか?
■データマイニングってシステム化できるの?次にクラスタ分析とか自己組織化マップ(SOM)とか、実際に分析に用いられる手法を一通り調べてみた。
一通り読んだり考えたり試したりしてみて感じたことが、
「こんなの本当にシステムでできるのか?」
ってこと。
例えば、論文のために卒業前の大学4年生で医療保険に関する法律の授業を受けている学生をサンプルに、
「後期高齢者医療制度は法的に問題があると思うか?」
とか言ったアンケートをして、回答の95%が「問題がある」と答えても、
それは学生一般の回答じゃなくて、ある特化した団体に対するアンケートでしかない。
(※法的なことはことは専門外なので誤っている可能性があります。もしおかしな箇所がありましたらご連絡ください。)またコンビニに入店するお客さんと購入商品の関係を調査して、
「雨の日に傘を持たずにコンビニに入店したお客さんの8割は傘を買う」
という分析結果が出たとしても、そもそもそんなことは自明であるといっても過言ではない話なので、
分析結果自体に意味を為さない。
こういう“当たり前”なものを排除するには、システムによる処理よりも、
一瞬のひらめきや気づき、判断などと言った“分析者のセンス”が問われると思うんです。
人が間に入って“適切なフィルター”をかけることで、その結果がゴミにも金にもなり得るんじゃないかと。
それがデータマイニングだと思うのです。
■まとめここまで書いてきて感じているのは、
「システムではデータマイニングは出来ないんじゃないか?」
ということ。
いや、もちろんシステムでも“適切なルールを定めて”分析させれば出来るのかもしれない。
でもそれって、そのルールを定めている人のバイアスに多かれ少なかれ影響を受けているし、
その結果はシステムが導き出した結果じゃなくて、ルールを決めた人が導き出した結果だ。
結局、上に書いているツールも、“データマイニングを楽に出来るようにする”機能は有していても、
“データマイニングを勝手にやってくれる”ってわけではないんじゃないかと。
(100%使いこなしてるわけではないのでわかりませんけど)
その結論を導き出すには、それなりの分析センスを持った人材が必要なんだと。
データマイニングって、本当に未知の法則見つけられたらカッコいいしすごいことなんだろうけど、
“それをシステムで導く”って?どうやって?
ここがやっぱりまだあいまいだと思うんですよ。
…いや、自分が素人で知らないだけで本当はすごい技術やノウハウがあって、
それによってもっとスゴイモノが導き出せているのかもしれない。
もしかしたらデータマイニングをシステムが自動的にしてくれて、
新たな発見をバンバン出している企業があるかもしれない…。
そんなわけで、1週間くらい調べた割には知らないことやわからないことばかりなので、
もう少し調べてみたいと思います。
PR