Python数据可视化:箱线图多种库画法
moboyou 2025-07-13 21:11 3 浏览
概念
箱线图通过数据的四分位数来展示数据的分布情况。例如:数据的中心位置,数据间的离散程度,是否有异常值等。
把数据从小到大进行排列并等分成四份,第一分位数(Q1),第二分位数(Q2)和第三分位数(Q3)分别为数据的第25%,50%和75%的数字。
四分位间距(Interquartilerange(IQR))=上分位数(upper quartile)-下分位数(lower quartile)
箱线图分为两部分,分别是箱(box)和须(whisker)。箱(box)用来表示从第一分位到第三分位的数据,须(whisker)用来表示数据的范围。
箱线图从上到下各横线分别表示:数据上限(通常是Q3+1.5IQR),第三分位数(Q3),第二分位数(中位数),第一分位数(Q1),数据下限(通常是Q1-1.5IQR)。有时还有一些圆点,位于数据上下限之外,表示异常值(outliers)。
(注:如果数据上下限特别大,那么whisker将显示数据的最大值和最小值。)
案例
1. 使用pandas自带的函数
使用pandas里的dataframe数据结构存放待显示的数据。如果希望显示的各个数据列表中,数据长度不一致,可以先用Series函数转换为Series数据,再存储到dataframe中,对应index的value值若不存在则为NaN。
下面我们随机生成4组数据,看看他们的箱线图。
【代码】
import numpy as np import pandas as pd from matplotlib import pyplot as plt def list_generator(mean, dis, number): # 封装一下这个函数,用来后面生成数据 return np.random.normal(mean, dis * dis, number) # normal分布,输入的参数是均值、标准差以及生成的数量 # 我们生成四组数据用来做实验,数据量分别为70-100 y1 = list_generator(0.8531, 0.0956, 70) y2 = list_generator(0.8631, 0.0656, 80) y3 = list_generator(0.8731, 0.1056, 90) y4 = list_generator(0.8831, 0.0756, 100) # 如果数据大小不一,记得需要下面语句,把数组变为series y1 = pd.Series(np.array(y1)) y2 = pd.Series(np.array(y2)) y3 = pd.Series(np.array(y3)) y4 = pd.Series(np.array(y4)) data = pd.DataFrame({"1": y1, "2": y2, "3": y3, "4": y4, }) data.boxplot() # 这里,pandas自己有处理的过程,很方便哦。 plt.ylabel("ylabel") plt.xlabel("xlabel") # 我们设置横纵坐标的标题。 plt.show()
【效果】
上面的箱线图很简单,给出数据后,几行代码就能生成,不过这是简单的箱线图。下面再看看稍微复杂点的。
2. 使用matplotlib库画箱线图
我们上面介绍了使用pandas画箱线图,几句命令就可以了。但是稍微复杂点的可以使用matplotlib库。matplotlib代码稍微复杂点,但是很灵活。细心点同学会发现pandas里面的画图也是基于此库的,下面给你看看pandas里面的源码:
通过源码可以看到pandas内部也是通过调用matplotlib来画图的。那下面我们自己实现用matplotlib画箱线图。
我们简单模拟一下,男女生从20岁,30岁的花费对比图,使用箱线图来可视化一下。
【代码】
import numpy as np import matplotlib.pyplot as plt fig, ax = plt.subplots() # 子图 def list_generator(mean, dis, number): # 封装一下这个函数,用来后面生成数据 return np.random.normal(mean, dis * dis, number) # normal分布,输入的参数是均值、标准差以及生成的数量 # 我们生成四组数据用来做实验,数据量分别为70-100 # 分别代表男生、女生在20岁和30岁的花费分布 girl20 = list_generator(1000, 29.2, 70) boy20 = list_generator(800, 11.5, 80) girl30 = list_generator(3000, 25.1056, 90) boy30 = list_generator(1000, 19.0756, 100) data=[girl20,boy20,girl30,boy30,] ax.boxplot(data) ax.set_xticklabels(["girl20", "boy20", "girl30", "boy30",]) # 设置x轴刻度标签 plt.show()
【效果】
从上面随机模拟,看出来男生花费赶不上女生吧,尤其是30岁以后,女生摔男生一大截啊。(模拟数据,请勿当真)
仔细看上面的图,感觉还是不太好,既然男女生对比,那是不是要分组,男女生放一块,然后再根据年龄段比较,这样比较才直观。
那我们就稍微改动上面一点点代码,实现男女生箱线图挨得近一点。
【代码】
import numpy as np import matplotlib.pyplot as plt fig, ax = plt.subplots() # 子图 def list_generator(mean, dis, number): # 封装一下这个函数,用来后面生成数据 return np.random.normal(mean, dis * dis, number) # normal分布,输入的参数是均值、标准差以及生成的数量 # 我们生成四组数据用来做实验,数据量分别为70-100 # 分别代表男生、女生在20岁和30岁的花费分布 girl20 = list_generator(1000, 29.2, 70) boy20 = list_generator(800, 11.5, 80) girl30 = list_generator(3000, 25.1056, 90) boy30 = list_generator(1000, 19.0756, 100) data=[girl20,boy20,girl30,boy30,] # 用positions参数设置各箱线图的位置 ax.boxplot(data,positions=[0, 0.6, 3, 3.7,])# 就是后面加了位置 ax.set_xticklabels(["girl20", "boy20", "girl30", "boy30",]) # 设置x轴刻度标签 plt.show()
【效果】
这样看一下,是不是男女生根据年龄段分组了呢,稍微比上面好看些,也直观一些。这样既能看出年龄段的对比,又能看出男女生的对比。
同样,如果想要箱线图旋转90°,那么也是在在 boxplot命令里加上参数 vert=False即可。如果想要更多设置,可以基于 boxplot函数参数进行修改,其函数定义如下:
boxplot(self, x, notch=None, sym=None, vert=None, whis=None, positions=None, widths=None, patch_artist=None, bootstrap=None, usermedians=None, conf_intervals=None, meanline=None, showmeans=None, showcaps=None, showbox=None, showfliers=None, boxprops=None, labels=None, flierprops=None, medianprops=None, meanprops=None, capprops=None, whiskerprops=None, manage_xticks=True, autorange=False, zorder=None)
3. 使用seaborn库和matplotlib来画箱线图
Seaborn是基于matplotlib的Python可视化库。 它提供了一个高级界面来绘制有吸引力的统计图形。Seaborn其实是在matplotlib的基础上进行了更高级的API封装,从而使得作图更加容易,不需要经过大量的调整就能使你的图变得精致。但应强调的是,应该把Seaborn视为matplotlib的补充,而不是替代物。
函数定义:
boxplot(x=None, y=None, hue=None, data=None, order=None, hue_order=None, orient=None, color=None, palette=None, saturation=.75, width=.8, dodge=True, fliersize=5, linewidth=None, whis=1.5, notch=False, ax=None, **kwargs)
【参数讲解】
- x,y:dataframe中的列名(str)或者矢量数据
- data:dataframe或者数组
- palette:调色板,控制图像的色调
- hue(str):dataframe的列名,按照列名中的值分类形成分类的条形图
- order, hue_order (lists of strings):用于控制条形图的顺序
- orient:"v"|"h" 用于控制图像使水平还是竖直显示(这通常是从输入变量的dtype推断出来的,此参数一般当不传入x、y,只传入data的时候使用)
- fliersize:float,用于指示离群值观察的标记大小
- whis:确定离群值的上下界(IQR超过低和高四分位数的比例),此范围之外的点将被识别为异常值。IQR指的是上下四分位的差值。
- width:float,控制箱型图的宽度
我们还是基于上面男女花费案例来说,不过这里我们把数据进行了整理,做成了数据框dataframe。
【包含的库】
import pandas as pd import numpy as np import seaborn as sns import matplotlib.pyplot as plt # plt.rc("font", family="SimHei", size="15") 避免中文乱码,可不用
【代码第一部分】数据生成
def list_generator(mean, dis, number): # 封装一下这个函数,用来后面生成数据 return np.random.normal(mean, dis * dis, number) # normal分布,输入的参数是均值、标准差以及生成的数量 # 我们生成四组数据用来做实验,数据量分别为70-100 # 分别代表男生、女生在20岁和30岁的花费分布 # 构造数据库DataFrame num = 100 # 每组100个样本 girl20 = list_generator(1000, 29.2, num) boy20 = list_generator(800, 11.5, num) girl30 = list_generator(3000, 25.1056, num) boy30 = list_generator(1000, 19.0756, num) girl_sex = ['female' for _ in range(num)] boy_sex = ['male' for _ in range(num)] age20 = [20 for _ in range(num)] age30 = [30 for _ in range(num)] girl_d1 = pd.DataFrame({'cost': girl20, 'sex': girl_sex, 'age': age20}) boy_d1 = pd.DataFrame({'cost': boy20, 'sex': boy_sex, 'age': age20}) girl_d2 = pd.DataFrame({'cost': girl30, 'sex': girl_sex, 'age': age30}) boy_d2 = pd.DataFrame({'cost': boy30, 'sex': boy_sex, 'age': age30}) data = pd.concat([girl_d1, boy_d1, girl_d2, boy_d2]) print(data.head())
数据长啥样?下面是给出的数据框前面的部分,一共400个样本,分性别和年龄。
【代码第二部分】使用seaborn库画图
简单看看所有数据的分布情况:
sns.boxplot(x=data["cost"],data=data)
根据性别分组:
sns.boxplot(x="age", y="cost", data=data, hue="sex", width=0.5, linewidth=1.0, palette="Set3")
根据年龄分组:
sns.boxplot(x="sex", y="cost", data=data, hue="age", width=0.5, linewidth=1.0, palette="Set3")
上面这些是seaborn库的简单使用,可以通过年龄看男女花费比较,也可以根据性别看不同年龄段的花费比较,还是比较直观的。当然除此之外还有很多其他的炫技,大家可以自己尝试。
总结
从上面来看,虽然我们是采用不同方法来画箱线图,但是最基本的都是调用matplotlib库,这里面pandas是最简单的箱线图可视化,但是不灵活。而matplotlib虽然灵活,但是需要慢慢调,而且复杂。相比之下seaborn更加酷炫,而且图还更好看。上面例子都是本人亲测,一个个对比,原创文章,大家如果有其他问题可以留言讨论。
相关推荐
- 软件下载超级合集(软件大集合)
-
注:AutoCAD软件解压密码均为:www.cadzxw.com(网址就是解压密码)AutoCAD2004:链接:http://pan.baidu.com/s/1i5yL4UT密码:wpxcAutoC...
- Discuz! Database Error(discuzdatabaseerror怎么解决)
-
(1017)Can'tfindfile:'./xyw/common_syscache.frm'(errno:13)SELECT*FROMcommon_syscacheWHERE`...
- 想在天上赏月?最全攻略来了(形容在天上赏月)
-
“但愿人长久,千里共婵娟。”赏月,是中秋夜的传统习俗之一。在地上赏月,或许人们已经习以为常,但在天上赏月又是怎样一番景象?记者梳理发现,为了满足广大旅客“上九天摘星揽月”的需求,春秋航空、南方航空等多...
- APP检测:安卓系统四大组件介绍(安卓的四大组件是什么?分别有什么作用?)
-
1、Activity组件漏洞Activity是Android组件中*基本也是*为常见用的四大组件之一,是一个负责与用户交互的组件。Activity组件中存在以下常见的漏洞。(1)activity绑定b...
- Markdown + 文档管理 + 静态网页生成,集大成的 Markdown 应用:MWeb
-
上周给大家推荐了Typora,作为一款纯粹的Markdown应用来说,它的各种功能和细节可以说已经相当极致,然而,Ulysses用户表示:我们想要的不仅仅是Markdown。是的,Markdo...
- Istio多集群实践(多集群架构)
-
为了实现应用高并发和高可用,企业通常会选择将应用部署在多个地域的多个集群,甚至多云、混合云环境中。在这种情况下,如何在多个集群中部署和管理应用,成为了一个挑战,当然多集群方案也逐步成为了企业应用部署的...
- 源码建站的流程是什么(有源码怎么建站)
-
1.选择适合自己需求的源码:在进行源码建站前,需要根据自己的需求选定一款适合自己的源码,一般建议选择流行度较高、稳定性较好的开源程序,如WordPress、Discuz等。2.下载源码:根据选择的...
- 论坛站长福利!积分墙Discuz插件火爆上线!
-
一款新型的Discuz插件正在火爆袭来,克服种种插件的弊端,全新打造,让你成为最成功最轻松的赚钱能手,这就是积分墙Discuz插件。积分墙Discuz插件(http://www.jifenqiang....
- 2020年了,公司还有必要做企业网站吗?网站开发是否过时呢
-
作为一个以网站开发起步的程序员,回想起来,曾经为不少客户做了网站。而我自己的网站已经六七年没有更新了,本想重新设计升级,但一直忙于做客户的系统开发,自己的网站就一直不管了,反正也没什么用,做得好还经常...
- 放大招,这才是低代码真正的形态PHP工作流引擎
-
放大招,这才是低代码真正的形态。来点干货,今天上点重头戏。表单设计中其实相对还是比较复杂的,比如常见的脚本,比如要控制一个默认的数值,大家可以看平台能够做到页面可以想输,输出什么?添加的时候进行操作。...
- OA源码解析:深入研究企业办公自动化系统的核心代码
-
随着信息技术的迅速发展,企业办公自动化(OfficeAutomation,简称OA)系统已成为现代企业管理中不可或缺的一部分。这些系统通过集成各种办公功能,如文档管理、流程管理、协作与通信等,极大地...
- 用PHP写了个数据分析框架示例代码
-
下面是一个简单的PHP数据分析框架的示例:```php<?php//1.数据收集functioncollectData(){//从数据库或API获取数据//...}//2.数据清...
- 「2022/02/02」thinkphp源码详细阅读(一)
-
thinkphp源码详细阅读(一)请求流程1.从入口index.php开始2.实例化App,我们看一下实例化所做的工作3.设置thinkPath、rootPath、appPath、...
- 【源码】效果最好的网格Shader(迄今为止)
-
我一直都在写Shader,其中有一个特定的Shader我一直想写好,但我总是因为一些我无法完全理解的原因而失败。然后过了几年,我用新学到的知识再次尝试,越来越接近,然后又失败。是什么Shader?模拟...
- 干货来了,一夜加粉百万的柏拉图源码仍给你
-
相信大家这几天都看到过一些关于“柏拉图app”公众号被封号的文章,主要内容是由于“柏拉图APP”推送的一条图文,叫做《生成你的性格标签,为自己带盐》,然后再短短的数日,柏拉图APP公众号便涨粉百万,阅...
- 一周热门
- 最近发表
- 标签列表
-
- 外键约束 oracle (36)
- oracle的row number (32)
- 唯一索引 oracle (34)
- oracle in 表变量 (28)
- oracle导出dmp导出 (28)
- oracle两个表 (20)
- oracle 数据库 字符集 (20)
- oracle安装补丁 (19)
- matlab化简多项式 (20)
- 多线程的创建方式 (29)
- 多线程 python (30)
- java多线程并发处理 (32)
- 宏程序代码一览表 (35)
- c++需要学多久 (25)
- css class选择器用法 (25)
- css样式引入 (30)
- html5和css3新特性 (19)
- css教程文字移动 (33)
- php简单源码 (36)
- php个人中心源码 (25)
- 网站管理平台php源码 (19)
- php小说爬取源码 (23)
- github好玩的php项目 (18)
- 云电脑app源码 (22)
- js创建txt文件 (18)