python データフレームでのクロス集計(2項目間の組み合わせの数・値の偏りを確認)するcrosstab関数
データフレームでのクロス集計(2項目間の組み合わせの数)する、 crosstab関数の使い方です。
import pandas as pd import numpy as np #データを作る data = [["A0",1],["A1",0],["A0",0],["A0",1]] df = pd.DataFrame(data=data, columns=['A','B']) df
A | B | |
---|---|---|
0 | A0 | 1 |
1 | A1 | 0 |
2 | A0 | 0 |
3 | A0 | 1 |
pd.crosstab(df["A"],df["B"],margins=True)
B | 0 | 1 | All |
---|---|---|---|
A | |||
A0 | 1 | 2 | 3 |
A1 | 1 | 0 | 1 |
All | 2 | 2 | 4 |
項目Aの値それぞれに対して1,0のどちらを取ったのか件数が出力されます。 取りうる値がどこにどれだけの偏りがあるのかを確認するのに便利な関数です。