ごはんと飲み物は紙一重

あんまり更新できてないです

データ分析と可視化をして思ったこと

技術的なところを書こうと思ったのですが、いろいろと説明するのはあれなので今日は日記カテゴリで書こうかと。

最近はバイト先や大学の講義、それ以外の多くの場所でデータ分析や可視化をすることが増えてきました。毎日毎日pythonとデータとにらめっこしていて日々楽しいのですが、続けてきて思ったことは、

可視化が難しいときに可視化に関する方向で対処しようとしないこと

ですね。何が言いたいのかというと、前処理したデータを無理して可視化の技術だけでなんとかしないようにしようということです。

たとえば今回の例えで行くと「あるデータの散布図を出しその数をバブルの大きさとして出力する」という方向で進めようとした時、元のデータをplt.scatterで散布図にしてサイズを変えてやればいいだけなのですが、それがうまく行かなくてなおかつ原因がつかめないときがありました。

f:id:ST_ha1cyon:20171122182457p:plain

↑図はサイズを反映させていない散布図

実際には散布図に反映させようとしたときにある値がどれだけ集まっているかをcountしておらず、どうにかこうにかしてsizeを一生懸命適応させようと原因を模索していました(結局原因は点の重なりであることを見抜けず基本中の基本の原因がわからず1日苦戦しました)。

次の日にどうしたかというと、本来の目的に沿ったより簡単なデータに前処理をして改めて棒グラフに可視化しました。

f:id:ST_ha1cyon:20171122182858p:plain

つまり「あるデータの散布図を出しその数をバブルの大きさとして出力する」のではなく「あるデータの数の散らばり具合を棒グラフとして出力する」という問題に変更したというわけです。

問題に対して正しいデータ分析を行う必要があり、技術のある人ならそこまで苦労するところではないと思うのですが、勉強中の身として技術がないなりに工夫する必要が出てきたときに、

問題の見直しや前処理の見直し

をしっかりしなきゃいけないななんて思いました。もちろん可視化の知らない技術もあるため、様々なところで学ぶところはたくさんあるので時間をかけることはこれから先も必要になると思いますが、

  • どうしたらいいかわからなくなったらとりあえず1日置こう
  • 自分の悩んでいる分野以外で立ちはだかる問題にアプローチできないかを考える

の2つが大事になるんじゃないかと思いました。久しぶりに日記なんて書いたので文章がひどいことになっていますが、こういった現状の問題に対してすぐに気づいて早急に対処できるようになれたらなぁと思う水曜19時でした。