vol.2 SQL初歩的なデータ抽出とグラフ作成
こんにちは
2月14日(インターン2日目)は、
Google BigQueryにある実際のデータを使ってSQLをぽちぽちしてみました。
SQLは、データの管理や操作などができるデータベース言語として広く普及しています。
現時点ではまだすごく簡単なコードですが、とりあえずどこに何を書けばいいのかがよく分からず、何度もエラーを出してました…。
うーーん、、どこに何を書けばいいのか、というのが本当に難しかったです。
この日は「SELECT」、「FROM」、「WHERE」、「GROUP BY」、「ORDER BY」、「LIMIT」の句だけを使ったのですが、句を並べるのにも順番があって、
句の中も、カンマで区切るとかカッコで括るとか、ややこしいな~という。
それで数時間奮闘していたのですが、なんとなく、なんとなく出来てきた気がします。
エラーの頻度はかなり減りました。
できたのは、
①男女別の年齢ごとの会員数
コード…
SELECT gender, age, count(gender) as count FROM [project-id:bizocean.member] WHERE gender ="male" GROUP BY gender, age ORDER BY count desc LIMIT 1000
女性の年齢別会員数はmaleをfemaleにしました。
②業種別会員数
コード…
SELECT industry , count( industry ) as count FROM [project-id:bizocean.member] GROUP BY industry ORDER BY count desc LIMIT 1000
③一番会員が多い業種の職種別会員数
コード…
SELECT industry, job_spec1, count( job_spec1) as count FROM [project-id:bizocean.member] WHERE industry CONTAINS "小売" GROUP BY industry, job_spec1 ORDER BY count desc LIMIT 1000
でした。
(グラフタイトルなどがちゃんとしていないのは目をつぶってください…)
②で小売・卸売・商社の会員が一番多いと分かったので、
③でその会員の職種を見てみました。
なぜ小売・卸売・商社が多いのか、なぜその中でも営業職や経営者が多いのか、
その日はもう時間がなくできませんでしたが
次回のインターンで、その会員の方たちがどういう書式をダウンロードしているのかなどを見て分析を進めていきたいと思いました。