初のデータ分析合宿参加

つい先日の土日に、ちゅらデータ株式会社主催の分析合宿に参加してきました。バイト生の私も参加できるということで参加してたくさん勉強してきました。細かい詳細はあんまり外に出せないので、合宿を通して得た知見などをずらずら書いていこうかなと思います。

大まかな分析合宿の流れ

ルール説明
- データを渡すのでこれを目的変数を元に分類してくださいね
- グループを組んで協力してやってね
- 1日目夜に中間発表、2日目昼で最終発表なんで、そこまでにtestデータに対する精度を高めてね

というものでした。グループでの作業だったので、チームメンバー内での認識を合わせたり、方向を確認したりをしっかりしなきゃいけませんでした。

データ分析の流れ

私達チーム(というか全チーム)はこんな感じで分析してました。

データの俯瞰
- どんなデータ構成になっていて、どういう特徴が見られるかを確認
仮説を立てる
- 理解したデータの特徴を元に、どういう特徴量が必要になるかを提案
仮説の検証
- 特徴量にする前に、その仮説が本当に特徴量として適していそうかを調べる
特徴量の作成
- 実際に分類に用いる特徴量を生成する
分類モデルの作成
- 作成した特徴量を元に、分類モデルを作成
作成したモデルの確認とその考察
- 精度や細かいパラメータを確認して、次にどのような特徴量が必要・どうやったら精度が上がるかを考える

合宿で精度トップだったチームは、このサイクルがとても早く回っていたんじゃないかなという印象でした。3の検証の段階では、自分のpandas力のなさ・matplotlib力のなさが身にしみてわかりましたね・・・ぐるじい。

2日間を通して

中間発表まではこのサイクルが回っていたのかと思うのですが、その後はのんびりしすぎてしまった？結果、2日目に焦って検証がうまくいかないなんてことがありました・・・そのせいで特徴量を作成できずなんてことがあったので、サイクルの各項目にどれだけ時間を使えるか、どこまでの範囲までできればよいのかを予め共有できてたら良かったのかななんて思いました。

とにかく、2日間を通して、大きく思ったのは、