vol.12　重回帰分析の練習、続き - ビズオーシャンでのインターン日記

今回も、少し前にやった内容です。

ビズオーシャンのユーザーの入会日、クリック状況、ダウンロード状況のでデータを使って、
入会日からの日数とクリック数（説明変数）が
ダウンロード数（目的変数）にどれくらい影響しているか、分析してみました。

uid：ユーザーID
duration：入会日からの日数
click_sum：クリック数
dl_sum：ダウンロード数

データはいずれも2017年の1月1日～8月31日までのもので、
その期間にクリックがあったユーザーに限定,
さらにランダムに200人に絞りました。

以前、別の分析の練習のときですが、
30万人分ぐらいのデータを使ったら、ひとつの処理に10分くらいかかってしまったので、
今回は200人にまで減らしました。

①データの読み込み

#入会日からの日数のデータ

member_duration = pd.read_csv("20170919work.gz")
member_duration.head()

f:id:yuka_nakayama:20171226105609p:plain

#クリック数のデータ

member_click = pd.read_csv("20171003click.gz")
member_click.head()

f:id:yuka_nakayama:20171226105623p:plain

#ダウンロード数のデータ

member_dl = pd.read_csv("20171003dl.gz")
member_dl.head()

f:id:yuka_nakayama:20171226105633p:plain

②３つともuidをindexに指定する、200人抽出、join

#duration
member_duration.index = member_duration["uid"]
member_duration_drop = member_duration.drop("uid", axis=1)

#click
member_click.index = member_click["uid"]
member_click_drop = member_click.drop("uid", axis=1)

#download
member_dl.index = member_dl["uid"]
member_dl_drop = member_dl.drop("uid",axis=1)


#join
duration_click = member_duration_drop.join(member_click_drop)

#click_sumにNaNが含まれるユーザーを排除
duration_click_drop = duration_click.dropna()


duration_click_drop

f:id:yuka_nakayama:20171226105750p:plain

#ランダム抽出

sample = np.random.permutation(len(duration_click_drop))
member_random = duration_click_drop.take(sample[:200])

#ランダム抽出したものにダウンロード数データをjoin

member_join = member_random.join(member_dl_drop)
member_join

f:id:yuka_nakayama:20171226105816p:plain

#dl_sumにNaNがあったので、それは0で埋める

member_fill = member_join.fillna(0)

③分析する

#Xを日数、クリック数とする

X_df = member_fill.drop("dl_sum",axis=1)

f:id:yuka_nakayama:20171226105924p:plain

#yをダウンロード数とする

y_df = member_fill.drop(["duration","click_sum"],axis=1)

f:id:yuka_nakayama:20171226105955p:plain

#Xとyを標準化する
std = StandardScaler()
>||
#Xの標準化

X_std = std.fit_transform(X_df)

f:id:yuka_nakayama:20171226110013p:plain

#yの標準化

y_std = std.fit_transform(y_df)

f:id:yuka_nakayama:20171226110027p:plain

import statsmodels.api as sm
import matplotlib.pyplot as plt

x = X_std
x = sm.add_constant(x)
y = y_std
#add_constantにより定数項を求められる

model = sm.OLS(y, x)
results = model.fit()

results.summary()

f:id:yuka_nakayama:20171226110047p:plain