pandas
pandas
YeeKal
•
•
"#pandas"
df.head()
df.info()
df.tail()
df_train.describe() #统计 min/std/max/mean
df.count() #计算每个类别的数目
df.isnull() #显示nan数据
iloc[1:10] # 按照逻辑行索引
pd.loc[] # 行访问数据,可以切片, 按照标签行
pd.iloc[].at[]
pd.iloc[].iat[]
pd.columns # 列名
pd.shape # (row_num,column_num)
pandas dataframe 与np.array相互转换
# dataframe--> array
df.values
df.as_matrix()
np.array(df)
# array--> dataframe
df = pd.DataFrame(array)
## plot
df.hist()
from pandas.plotting import scatter_matrix
attri=['Survived','Pclass','Age','SibSp','Parch','Fare']
scatter_matrix(df[attri])
数据清洗
'''
以下所有函数都不对df本身作修改
'''
df.dropna(subset=['Cabin']) #放弃有nan的一行
df.drop('Cabin',axis=1)# 丢弃Cabin这一列
#以某个数字(中位数)填充
median = housing["total_bedrooms"].median()
housing["total_bedrooms"].fillna(median) # option 3