百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

Python数据分析(五)Pandas数据预处理

moboyou 2025-05-30 18:41 28 浏览

合并数据

在实际工作中,我们的数据源往往是来自多个地方(比如分散在不同的表里),

具体分析的时候需要把相关联的数据信息整合在一张表里,可能会有如下操作:

横向或纵向堆叠合并数据

主键合并数据

重叠合并数据

我们可以使用 concat、append、merge、join、conbine_first 来实现上述需求

o 横向表堆叠

横向堆叠,即将两个表在 x 轴向拼接在一起,可以使用 concat 函数完成,基本语法如下:

pandas.concat(objs, axis=0, join='outer', join_axes=None, ignore_index=False, keys=None,

levels=None, names=None, verify_integrity=False, copy=True)

o 横向表堆叠

当 axis=1 的时候,concat 做行对齐,然后将不同列名称的两张或多张表合并。当两个表索引不完

全一样时,可以使用 join 参数选择是内连接还是外连接。在内连接的情况下,仅仅返回索引重叠部

分。在外连接的情况下,则显示索引的并集部分数据,不足的地方则使用空值填补。

当两张表完全一样时,不论 join 参数取值是 inner 或者 outer,结果都是将两个表完全按照 X 轴拼

接起来。

o 纵向堆叠——concat函数

使用 concat 函数时,在默认情况下,即 axis=0 时,concat 做列对齐,将不同行索引的两张或多张表纵向合并。在两张表的列名并不完全相同的情况下,当 join 参数取值为 inner 时,返回的仅仅是列名交集所代表的列,取值为 outer 时,返回的是两者列名的并集所代表的列

不论 join 参数取值是 inner 或者 outer,结果都是将两个表完全按照 Y 轴拼接起来


o 纵向堆叠——append方法

DataFrame 的 append 方法也可以用于纵向合并两张表。但是 append 方法实现纵向表堆叠有一

个前提条件,那就是两张表的列名需要完全一致。基本语法如下:

df.append(self, other, ignore_index=False, verify_integrity=False)

常用参数:

o 主键合并

通过一个或多个键将两个数据集的行连接起来,类似于 SQL 中的 JOIN。针对同一个主键存在两张包

含不同字段的表,将其根据某几个字段一一对应拼接起来,结果集列数为两个表的列数和再减去连接

键的数量。

o 主键合并——merge函数

和数据库的 join 一样,merge 函数也有左连接(left)、右连接(right)、内连接(inner)和外

连接(outer),但比起数据库 SQL 语言中的 join ,merge函数还有其自身独到之处,例如可以在

合并过程中对数据集中的数据进行排序,用法如下:

pd.merge(left, right, how='inner', on=None, left_on=None, right_on=None, left_index=False,

right_index=False, sort=False, suffixes=('_x', '_y'), copy=True, indicator=False)

o 主键合并——join方法

DataFrame对象的 join 方法也可以实现主键合并的功能,但是 join 方法使用时,两个主键的名字

必须相同,用法如下:

df.join(self, other, on=None, how='left', lsuffix='', rsuffix='', sort=False)

o 重叠合并

数据分析和处理过程中偶尔会出现两份数据的内容几乎一致的情况,但是某些特征在其中一张表上是

完整的,而在另外一张表上的数据则是缺失的,可以用 DataFrame 对象的 combine_first 方法进行

重叠数据合并,其用法如下:

o 案例

堆叠不同时间的订单详情表

o 订单详情表 meal_order_detail1、meal_order_detail2、meal_order_detail3 具有相同的特征,但数据时

间不同,订单编号也不同,在数据分析过程中需要使用全量数据,需要将几张表做纵向堆叠操作

主键合并订单详情表、订单信息表和客户信息表

o 订单详情表、订单信息表和客户信息表两两之间存在相同意义的字段,因此需通过主键合并的方式将三张

表合并为一张宽表。

清洗数据

在实际工作中,我们拿到的数据基本不会是直接就能用的,里面包含了大量的重复数据、缺

失数据和异常数据。数据重复会导致数据的方差变小,数据分布发生较大变化。缺失会导致样本

信息减少,不仅增加了数据分析的难度,而且会导致数据分析的结果产生偏差。异常值则会产生

“伪回归”。

因此需要对数据进行检测,查询是否有重复值缺失值异常值,并且要对这些数据进行适

当的处理,即数据清洗

o 检测与处理重复值

处理重复数据是数据分析经常面对的问题之一。对重复数据进行处理前,需要分析重复数据

产生的原因以及去除这部分数据后可能造成的不良影响。常见的数据重复分为两种:

记录重复,即一个或者多个特征的某几条记录的值完全相同

特征重复,即存在一个或者多个特征名称不同,但数据完全相同的情况

o 检测与处理重复值

记录重复

① 方法一是利用列表(list)去重,自定义去重函数:

② 方法二是利用集合(set)的元素是唯一的特性去重,如 dish_set = set(dishes)

比较上述两种方法可以发现,方法一代码冗长。方法二代码简单了许多,但会导致数据的排列发生改变。

检测与处理重复值

记录重复

Pandas 提供了一个名为 drop_duplicates 的去重方法。该方法只对 DataFrame 或

Series 类型有效。这种方法不会改变数据原始排列,并且兼具代码简洁和运行稳定的特点。

该方法不仅支持单一特征的数据去重,还能够依据 DataFrame 的其中一个或者几个特征

进行去重操作: df.drop_duplicates(self, subset=None, keep='first', inplace=False)


o 检测与处理重复值

特征重复

结合相关的数学和统计学知识,去除连续型特征重复可以利用特征间的相似度将两个相似度为1的

特征去除一个。在 pandas 中相似度的计算方法为 corr ,使用该方法计算相似度时,默认为

“pearson”法 ,可以通过“method”参数调节,目前还支持“spearman”法和“kendall”法。

注:通过相似度矩阵去重存在一个弊端,该方法只能对数值型重复特征去重,类别型特征之间无法通过计算相似系

数来衡量相似度。

除了使用相似度矩阵进行特征去重之外,可以通过 DataFrame.equals 方法进行特征去重。

o 检测与处理缺失值

发现缺失值

数据中的某个或某些特征的值是不完整的,这些值称为缺失值

pandas 提供了识别缺失值的方法 isnull 以及识别非缺失值的方法 notnull,这两种方法在使用时返

回的都是布尔值,即 True和False。

结合 sum 函数和 isnull、notnull 函isnull和notnull之间结果正好相反,因此使用其中任意一个都可

以判断出数据中缺失值的位置数,可以检测数据中缺失值的分布以及数据中一共含有多少缺失值

isnull 和 notnull 之间结果正好相反,因此使用其中任意一个都可以判断出数据中缺失值的位置

o 检测与处理缺失值

处理缺失值——删除法

删除法分为删除记录和删除特征两种,它属于利用减少样本量来换取信息完整度的一种方法,是一

种最简单的缺失值处理方法。

pandas中提供了简便的删除缺失值的方法 dropna ,该方法既可以删除记录,亦可以删除特征:

df.dropna(self, axis=0, how='any', thresh=None, subset=None, inplace=False)

o 检测与处理缺失值

处理缺失值——替换法

替换法是指用一个特定的值替换缺失值。

特征可分为数值型和类别型,两者出现缺失值时的处理方法也是不同的:

缺失值所在特征为数值型时,通常利用其均值、中位数和众数等描述其集中趋势的统计量来代替缺失值

缺失值所在特征为类别型时,则选择使用众数来替换缺失值

o 检测与处理缺失值

处理缺失值——替换法

pandas 库中提供了缺失值替换的方法名为 fillna,其基本语法如下:

df.fillna(value=None, method=None, axis=None, inplace=False, limit=None)

o 检测与处理缺失值

处理缺失值——插值法

删除法简单易行,但是会引起数据结构变动,样本减少;替换法使用难度较低,但是会影响数据的标

准差,导致信息量变动。在面对数据缺失问题时,除了这两种方法之外,还有一种常用的方法—插值

常用的插值法有线性插值多项式插值样条插值等:

线性插值是一种较为简单的插值方法,它针对已知的值求出线性方程,通过求解线性方程得到缺失值。

多项式插值是利用已知的值拟合一个多项式,使得现有的数据满足这个多项式,再利用这个多项式求解缺失值,常见的多

项式插值法有拉格朗日插值和牛顿插值等。

样条插值是以可变样条来作出一条经过一系列点的光滑曲线的插值方法,插值样条由一些多项式组成,每一个多项式都是

由相邻两个数据点决定,这样可以保证两个相邻多项式及其导数在连接处连续。

o 检测与处理缺失值

处理缺失值——插值法

Pandas 库提供了 interpolate 方法实现上述插值 :

注意:依赖于 scipy 库,需要先安装:pip install scipy

也可以用 scipy 的方法来实现

o 检测与处理异常值

异常值是指数据中个别值的数值明显偏离其余的数值,有时也称为离群点,检测异常值就是

检验数据中是否有输入错误以及是否含有不合理的数据。如果计算分析过程的数据中有异常

值,那么会对结果产生不良影响,从而导致分析结果产生偏差乃至错误。

常用的异常值检测主要为:

3σ原则

箱线图分析

o 检测与处理异常值

3σ原则

3σ原则又称为拉依达法则。该法则就是先假设一组检测数据只含有

随机误差,对原始数据进行计算处理得到标准差,然后按一定的概率

确定一个区间,认为误差超过这个区间的就属于异常值。

如右图,符合正态分布的数据集的数值分布几乎全部集中在区间

(μ-3σ,μ+3σ)内,其中σ 代表标准差,μ 代表均值,超出这个范围的

数据仅占不到0.3%。故根据小概率原理,可以认为超出3σ的部分数据

为异常数据。

注意:这种方法仅适用于对正态或近似正态分布的样本数据进行处理


o 检测与处理异常值

箱线图分析

箱型图提供了识别异常值的一个标准,即异常值通常

被定义为小于 QL-1.5 IQR 或大于 QU+1.5 IQR 的值

o QL 称为下四分位数,表示全部观察值中有四分之一的

数据取值比它小。

o QU 称为上四分位数,表示全部观察值中有四分之一的

数据取值比它大。

o IQR 称为四分位数间距,是上四分位数 QU 与下四分位

数 QL 之差,其间包含了全部观察值的一半。

标准化数据

我们在进行数据分析与挖掘时,样本的不同特征之间往往具有不同的量纲,由此所造成的数值

间的差异可能很大,在涉及空间距离计算或梯度下降法等情况时,不对其进行处理会影响到数

据分析结果的准确性。为了消除特征之间量纲和取值范围差异可能会造成的影响,需要对数据

进行标准化处理,也可以称作规范化处理。标准化处理有以下三种:

离差标准化

标准差标准化

小数定标标准化

o 离差标准化

离差标准化又叫 min-max 标准化,是对原始数据的一种线性变换(归一化),将原始

数据的数值映射到 [0,1] 区间

转换公式:

其中,max 为样本数据的最大值,min 为样本数据的最小值,max-min 为极差。离差标

准化保留了原始数据值之间的联系,是消除量纲和数据取值范围影响最简单的方法

o 标准差标准化

标准差标准化又叫零均值标准化,或者 z-score 标准化,是当前使用最广泛的数据标准

化方法。经过该方法处理后的数据均值为 0,标准差为 1。

转化公式:


其中, 为样本数据的均值, 为样本数据的标准差。标准差标准化后的值区间不局限于

[0,1],并且存在负值

o 小数定标标准化

通过移动数据的小数点位置,将数据映射到区间[-1,1],移动的小数位数取决于数据绝对

值的最大值。

转化公式:

例如:属性A的取值范围是 -800 到 70,那么就可以将数据的小数点整体向左移三位,即

[-0.8,0.07]

转化数据

o 类别型数据的处理

数据分析模型中有相当一部分的算法模型都要求输入的特征为数值型,但实际数据中,特征的类型不一定只有数值型,还会存在相当一部分的类别型,这部分的特征需要经过哑变量处理才可以放入模型之中,处理示例如下图:


o 类别型数据的处理

Pandas 库提供了 get_dummies 函数对类别型特征进行哑变量处理:

pandas.get_dummies(data, prefix=None, prefix_sep='_', dummy_na=False, columns=None,

sparse=False, drop_first=False)

o 离散化连续型数据

某些模型算法,特别是某些分类算法如 ID3 决策树算法和 Apriori 算法等,要求数据是离散的,此时就需要将连续型特征(数值型)变换成离散型特征(类别型)。

连续特征的离散化就是在数据的取值范围内设定若干个离散的划分点,将取值范围划分为一些离散化的区间,最后用不同的符号或整数值代表落在每个子区间中的数据值。

常用的离散化方法主要有3种:等宽法等频法

类分析法(一维)


o 离散化连续型数据

等宽法

将数据的值域分成具有相同宽度的区间,区间的个数由数据本身的特点决定或者由用

户指定,与制作频率分布表类似。pandas 提供了 cut 函数,可以进行连续型数据的等

宽离散化,其基础语法格式如下:

pandas.cut(x, bins, right=True, labels=None, retbins=False, precision=3,

include_lowest=False)

o 离散化连续型数据

等宽法

使用等宽法离散化的缺陷为:等宽法离散化对数据分布具有较高要求,若数据分布不

均匀,那么各个类的数目也会变得非常不均匀,有些区间包含许多数据,而另外一些

区间的数据极少,这会严重损坏所建立的模型。

o 离散化连续型数据

等频法

cut 函数虽然不能够直接实现等频离散化,但是可以通过定义将相同数量的记录放进

每个区间。

等频法离散化的方法相比较于等宽法离散化而言,避免了类分布不均匀的问题,但同

时却也有可能将数值非常接近的两个值分到不同的区间以满足每个区间中固定的数据

个数。

o 离散化连续型数据

聚类分析法

一维聚类的方法包括两个步骤:

首先将连续型数据用聚类算法(如K-Means算法等)进行聚类,

然后处理聚类得到的簇,为合并到一个簇的连续型数据做同一种标记。

聚类分析的离散化方法需要用户指定簇的个数,用来决定产生的区间数。

相关推荐

Excel技巧:SHEETSNA函数一键提取所有工作表名称批量生产目录

首先介绍一下此函数:SHEETSNAME函数用于获取工作表的名称,有三个可选参数。语法:=SHEETSNAME([参照区域],[结果方向],[工作表范围])(参照区域,可选。给出参照,只返回参照单元格...

Excel HOUR函数:“小时”提取器_excel+hour函数提取器怎么用

一、函数概述HOUR函数是Excel中用于提取时间值小时部分的日期时间函数,返回0(12:00AM)到23(11:00PM)之间的整数。该函数在时间数据分析、考勤统计、日程安排等场景中应用广泛。语...

Filter+Search信息管理不再难|多条件|模糊查找|Excel函数应用

原创版权所有介绍一个信息管理系统,要求可以实现:多条件、模糊查找,手动输入的内容能去空格。先看效果,如下图动画演示这样的一个效果要怎样实现呢?本文所用函数有Filter和Search。先用filter...

FILTER函数介绍及经典用法12:FILTER+切片器的应用

EXCEL函数技巧:FILTER经典用法12。FILTER+切片器制作筛选按钮。FILTER的函数的经典用法12是用FILTER的函数和切片器制作一个筛选按钮。像左边的原始数据,右边想要制作一...

office办公应用网站推荐_office办公软件大全

以下是针对Office办公应用(Word/Excel/PPT等)的免费学习网站推荐,涵盖官方教程、综合平台及垂直领域资源,适合不同学习需求:一、官方权威资源1.微软Office官方培训...

WPS/Excel职场办公最常用的60个函数大全(含卡片),效率翻倍!

办公最常用的60个函数大全:从入门到精通,效率翻倍!在职场中,WPS/Excel几乎是每个人都离不开的工具,而函数则是其灵魂。掌握常用的函数,不仅能大幅提升工作效率,还能让你在数据处理、报表分析、自动...

收藏|查找神器Xlookup全集|一篇就够|Excel函数|图解教程

原创版权所有全程图解,方便阅读,内容比较多,请先收藏!Xlookup是Vlookup的升级函数,解决了Vlookup的所有缺点,可以完全取代Vlookup,学完本文后你将可以应对所有的查找难题,内容...

批量查询快递总耗时?用Excel这个公式,自动计算揽收到签收天数

批量查询快递总耗时?用Excel这个公式,自动计算揽收到签收天数在电商运营、物流对账等工作中,经常需要统计快递“揽收到签收”的耗时——比如判断某快递公司是否符合“3天内送达”的服务承...

Excel函数公式教程(490个实例详解)

Excel函数公式教程(490个实例详解)管理层的财务人员为什么那么厉害?就是因为他们精通excel技能!财务人员在日常工作中,经常会用到Excel财务函数公式,比如财务报表分析、工资核算、库存管理等...

Excel(WPS表格)Tocol函数应用技巧案例解读,建议收藏备用!

工作中,经常需要从多个单元格区域中提取唯一值,如体育赛事报名信息中提取唯一的参赛者信息等,此时如果复制粘贴然后去重,效率就会很低。如果能合理利用Tocol函数,将会极大地提高工作效率。一、功能及语法结...

Excel中的SCAN函数公式,把计算过程理清,你就会了

Excel新版本里面,除了出现非常好用的xlookup,Filter公式之外,还更新一批自定义函数,可以像写代码一样写公式其中SCAN函数公式,也非常强大,它是一个循环函数,今天来了解这个函数公式的计...

Excel(WPS表格)中多列去重就用Tocol+Unique组合函数,简单高效

在数据的分析和处理中,“去重”一直是绕不开的话题,如果单列去重,可以使用Unique函数完成,如果多列去重,如下图:从数据信息中可以看到,每位参赛者参加了多项运动,如果想知道去重后的参赛者有多少人,该...

Excel(WPS表格)函数Groupby,聚合统计,快速提高效率!

在前期的内容中,我们讲了很多的统计函数,如Sum系列、Average系列、Count系列、Rank系列等等……但如果用一个函数实现类似数据透视表的功能,就必须用Groupby函数,按指定字段进行聚合汇...

Excel新版本,IFS函数公式,太强大了!

我们举一个工作实例,现在需要计算业务员的奖励数据,右边是公司的奖励标准:在新版本的函数公式出来之前,我们需要使用IF函数公式来解决1、IF函数公式IF函数公式由三个参数组成,IF(判断条件,对的时候返...

Excel不用函数公式数据透视表,1秒完成多列项目汇总统计

如何将这里的多组数据进行汇总统计?每组数据当中一列是不同菜品,另一列就是该菜品的销售数量。如何进行汇总统计得到所有的菜品销售数量的求和、技术、平均、最大、最小值等数据?不用函数公式和数据透视表,一秒就...