快速浏览数据结构——Pandas

知识点

data.iloc[train_indices]

对于一个DataFrame A,A.loc[k]是读取A中index为k的那一行。A.iloc[k]是读取A中的第k行。

数据观测

#返回一个DataFrame对象
housing  = pd.read_csv("housing.csv")
#预览头n行
housing.head(6)
#查看此列的不同值统计
housing["ocean_proximity"].value_counts()
#查看表的列的总体情况count总数,mean均值,std(标准差),min,25%,50%,75%
housing.describe()
#数据展示,bins代表条数
%matplotlib inline
import matplotlib.pyplot as plt
housing.hist(bins=50, figsize=(20,15))
plt.show()
#查看单列
housing["median_income"].hist()

选取数据集

loc与iloc函数
  • loc函数

    import pandas as pd
    import numpy
    # 导入数据
    df = pd.read_csv(filepath_or_buffer="D://movie.csv")
    #1:根据列中的元素,选取对应元素的数据集 
    df_new = df.set_index(["country"])
    #2:根据元素的选取条件来选取对应的数据集 
    df_new.loc[list(["Canada"])] # 1
    #3:根据元素的选取条件来来选取对应的数据集,并在符合条件的数据行添加flage标签
    df_new.loc[df_new["duration"]>160] # 2
    df_new.loc[((df_new["duration"] > 200) & (df_new["director_facebook_likes"] > 300 )),"flage"] =1 # 3
    #4:isin函数是series用来判断值是否在目标值是否在series 
    df_new.loc[df_new["duration"].isin([100])] # 4
    #5:query函数中用来判断条件符合的数据集并返回
    df_new.query("duration > 100 & index == 'UK'") # 5
    
  • iloc函数

    df_new.iloc[0:4]

iloc比较简单,它是基于索引位来选取数据集,0:4就是选取 0,1,2,3这四行,需要注意的是这里是前闭后开集合

其他用到的函数(见KNN.md)
pandas.DataFrame.pivot

pandas 之 rename、reindex

pandas中关于set_index和reset_index的用法

python—pandas.merge

Pandas—排序sort_values

PANDAS 数据合并与重塑(concat篇)

pandas的DataFrame、Series删除列

小小项目: 两班成绩统计

  • 合并两班成绩表
  • 追加排名
  • 做数据分析
  • 项目地址