Mussel Docking World

発汗、発光の末、発酵!をモットーに、音楽的な活動をする二人組、Mussel Docking (マッスル・ドッキング)のブログです。

苦しみofデータ分析(初歩的な苦悩)

8月半ばを過ぎた土曜日に、こんにちは。

これ、ご存知ですか?

■EDGE Datasets
http://labs.edge.jp/datasets/

■結構くわしい説明
http://www.mkc.zaq.ne.jp/eabeh309/edge_datasets/

■データ元はこれ(livedoorのソーシャル・ブックマーク)のデータです
http://clip.livedoor.com/

こういう巨大データが無料でサプライされているので、こういうのを使って大学のフリーの研究家、自称研究家が、研究、分析できるというのはうれしい(たのしい大好き)ですね。

私はWebの世界のデータ自体に無知であり、したがって(したがって?)それにまつわる色んな分析には疎い(と言うより全く知らない、知っていると言えばテキストマイニングくらいな)のですが、これからの時代、扱う商材にもよりますが、店頭での販売データの分析だけに長けていても分析者としてはキツいであろう、と思っています(遅すぎ?)。
今の時代のショッピングの行動を考えれば、流通を考えれば、当然、not only リアル店舗での販売データやリアル社会での行動データの分析 but also ネット上での閲覧高度と購買データ分析 への関心が出てきちゃうよね、という話です。

というわけで前置きが長くなってしまいましたが、

Webを含む、色んなものの“つながり”について各所で語られ、論じられ、議論されているようですね、昨今。
昨今、木根、Rockin'On。サッコン・モッコン・ロッキンオン。

http://smoothfoxxx.livedoor.biz/archives/51851330.html
このblogで紹介されている
『つながり 社会的ネットワークの驚くべき力』
 ニコラス・A・クリスタキス (著), ジェイムズ・H・ファウラー (著),鬼澤 忍 (翻訳)
という本が面白そうなので、それで・・・この今書いている文書につながっています。

先日寝るに、このblogを携帯で読んでいて、そのことが頭に残っていて1.5日程たった今、そういやこんなのあったな・・・・と、EDGE Datasetsのことを想起したっていうのがこの今書いている文、ここに至る経緯っちゃ経緯です。

さてはて、話は移りますが、先日、同僚氏が上の人に依頼されてデータ分析をしておりました。その時の出来事を傍から見ていたのでそれについて書きます。

氏はある店舗でのキャンペーンの効果を分析すべく、統計ソフトやAccess(not 貴水&浅倉)、Excelを駆使してデータハンドリングし、分析を行い、数表にまとめ、PowerPointに貼りつけてコメントを書いて・・・・と1日かけて作業に没頭、夜も遅い時間になり、あれ?はて?なんだろこのおかしな感覚。
このデータどこかおかしくないか?どうかな?ということで、司令官に相談。
色々と議論しデータを確認したところ、どうやら分析の際、最初期に除去しておくべきデータが紛れ込んでいて、それを除かぬまま分析を始めたことが発覚。

なんと!1日かけた大仕事が振り出しに!
分析の進め方は1度やった分だけやり直すにしても考えずに済むところですが、何せ徒労です徒労!精神的ダメージがでかい。

家を作るときでも同じで、どんな家を作るのか設計をして、使うべき建材と使ってはいけない建材を仕分けた上で、設計に基づき建設を始めると思われます。データ分析も、分析の結果、どういったモノを出したいのかを明確にした上で、その目標を達成するために必要となるデータについて明確にし(つまりは除去すべきデータ要件についてもはっきりさせておいて)その上で分析設計に依拠した分析作業に入っていく・・・・のが、当然っちゃ当然、わかっちゃいるけど、今の時代、ExcelをはじめSAS、R、SPSS、色んなツールで「とりあえず作業を始められる」ので、しっかりとした分析の前提条件の確認作業、分析設計というのが疎かになりがちで(そう、自分の場合も!)それが後から、2倍3倍の労働量を投じなくてはならぬ諸悪の根源になりがちなんですよねぇ。

つながり 社会的ネットワークの驚くべき力

つながり 社会的ネットワークの驚くべき力