知识点
data.iloc[train_indices]
对于一个DataFrame A,A.loc[k]是读取A中index为k的那一行。A.iloc[k]是读取A中的第k行。
数据观测
#返回一个DataFrame对象 housing = pd.read_csv("housing.csv") #预览头n行 housing.head(6) #查看此列的不同值统计 housing["ocean_proximity"].value_counts() #查看表的列的总体情况count总数,mean均值,std(标准差),min,25%,50%,75% housing.describe() #数据展示,bins代表条数 %matplotlib inline import matplotlib.pyplot as plt housing.hist(bins=50, figsize=(20,15)) plt.show() #查看单列 housing["median_income"].hist()
选取数据集
loc与iloc函数
loc函数
import pandas as pd import numpy # 导入数据 df = pd.read_csv(filepath_or_buffer="D://movie.csv") #1:根据列中的元素,选取对应元素的数据集 df_new = df.set_index(["country"]) #2:根据元素的选取条件来选取对应的数据集 df_new.loc[list(["Canada"])] # 1 #3:根据元素的选取条件来来选取对应的数据集,并在符合条件的数据行添加flage标签 df_new.loc[df_new["duration"]>160] # 2 df_new.loc[((df_new["duration"] > 200) & (df_new["director_facebook_likes"] > 300 )),"flage"] =1 # 3 #4:isin函数是series用来判断值是否在目标值是否在series df_new.loc[df_new["duration"].isin([100])] # 4 #5:query函数中用来判断条件符合的数据集并返回 df_new.query("duration > 100 & index == 'UK'") # 5
iloc函数
df_new.iloc[0:4]
iloc比较简单,它是基于索引位来选取数据集,0:4就是选取 0,1,2,3这四行,需要注意的是这里是前闭后开集合
其他用到的函数(见KNN.md)
pandas.DataFrame.pivot
pandas中关于set_index和reset_index的用法
小小项目: 两班成绩统计
- 合并两班成绩表
- 追加排名
- 做数据分析
- 项目地址