ビズオーシャンでのインターン日記

プログラミング未経験の文系大学生がインターンシップで頑張る日記です

vol.14 メルマガクリック率の予測、インターン終了

今回は、会員の属性と過去のメルマガクリック率をもとにモデルを作成し、
今後新しく増えるユーザーのクリック率はどうなるのか、予測の分析をしました。



ここでは、説明変数である会員属性が数値ではないので、
数量化1類という考え方で分析していきます。

数値に変換したあと、考え方は線形回帰と同じです。

数値への変換はロジスティック回帰のときと同じなので省略します。
f:id:yuka_nakayama:20171226151558p:plain

from sklearn import linear_model
clf = linear_model.LinearRegression()
#mail_loansの確率分析
loans_drop = ["mail_business","mail_health","mail_resource","mail_english","mail_software","mail_invest"]
cross_loans = cross_dum.drop(loans_drop,axis=1)

#X_loansを会員属性、Y_loansをクリック率とする
X_loans=cross_loans.drop("mail_loans",axis=1)
Y_loans=cross_loans["mail_loans"]
clf_loans=clf.fit(X_loans,Y_loans)
loans_predict=clf_loans.predict(X_loans)

分析によって出されたモデルに会員属性を当てはめて、
(理論上の)クリック率を計算すると、以下のようになります。

loans_predict

f:id:yuka_nakayama:20171226151629p:plain

ほかのメルマガも同じようにクリック率を予測して、
データフレームをつなげるとこんな感じになります。
f:id:yuka_nakayama:20171226151648p:plain

実際のクリック率との差が大きいユーザーもいて、
分析に用いる属性の項目やユーザー数を増やせば
もっと精度の高い分析ができるのかなと思いました。




あと、私事ですが、
本日をもって、ビズオーシャンでのインターンシップを終了することになりました。
今年2月にインターンを始め、もう1年近く経っていて自分でも驚いています。

大学の授業やゼミの関係であまり来られない日もありましたが、
得られたものはかなり大きかったです。

前まではプログラミングそのものに触れたことがなかったため、本当に0からのスタートでしたが、
様々なコードを書いていくことでプログラミングの感覚というか、そういったものを少し掴めたような気がします。

また、データ分析のプロセスのなかで、
分析前のデータの処理と分析後の解釈が大事なんだと気付くこともできました。
精度の高い分析を速くするためには前処理(要するにプログラミングスキル)が必要で、
分析結果を正確に読み取るには統計学の知識や考え方が必要なんだなぁと思いました。

大学卒業後にどんな仕事をするのかはまだ分かりませんが、
この経験を生かしていきたいと思います。