百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

性能优化技巧:有序分组

moboyou 2025-04-09 13:21 12 浏览

一、问题背景与适用场景

通常分组计算都采用 hash 方案,即先计算分组字段的 hash 值,hash 值相同的记录被分拣到一个小集合里,然后在这个小集合中遍历找分组字段值相同的聚合成一组。分组的复杂度 (比较次数),取决于 hash 函数的重码率。在 hash 空间比较小时,重码率就高,比较次数就会多,性能会受较大影响。为了提高性能,就需要分配较大的内存来存放 hash 表。另外,有些数据类型(长字串)的 hash 计算也比较慢,这也会影响性能。

如果分组字段是有序的,在分组的时候,每条记录只与上一条记录比较,发现有不同时则新建一个分组,相同则聚合到当前组中。这样的分组运算的复杂度为 n(被分组集合的长度),而且没有 hash 计算和重码率的问题,可以获得比 hash 分组更快的性能,而且并不需要太多内存用于存放 hash 表。

SPL 提供了这种分组方法,我们实例测试一下,并且与使用 hash 分组算法的 Oracle 对比。

二、测试环境

测试机有两个 Intel2670 CPU,主频 2.6G,共 16 核,内存 64G,SSD 固态硬盘。在此机上安装虚拟机来测试,设置虚拟机为 16 核、8G 内存。

三、小数据量小结果集测试

在虚拟机上创建数据表 orderdetail_1,共三个字段:orderid(整数)、detailid(整数)、amount(实数),前两个字段是主键,生成数据记录 8 千万行。将此表数据导入 Oracle 数据库,同时用它生成集算器 SPL 组表来进行测试。

orderid 字段数据升序排列,按 orderid 进行分组,共有 50 组,统计每张订单的总金额和明细条数。

1.Oracle 测试

编写查询测试 SQL 如下:

select /*+ parallel(n) */

orderid, sum(amount) as amount, count(detailid) as details

from orderdetail_1

group by orderid;

其中 /*+ parallel(n) */ 用于并行测试,n 为并行数。

2.SPL 测试

编写 SPL 脚本如下:

groups 分组时加选项 @o 就适用分组字段有序时,只比较相邻行的值进行有序分组。

3. 测试结果

测试结果如下,单位 (秒):

在 8 千万行数据的情况下,SPL 有序分组的性能提高了一倍左右,并且并行的效果非常好,性能呈线性上升。而使用 hash 分组的 Oracle 并行提速效果并不明显。

性能提高程序与数据量有关,当数据量很小时,分组时间占整个查询时间的比例很小,对整体性能的提高也就不明显。但随着数据量的增加,提升效果就会越来越显著。

下面我们再来看看大数据量测试的情况。

四、大数据量大结果集测试

在虚拟机上创建数据表 orderdetail_2,共三个字段:orderid(字符串)、detailid(整数)、amount(实数),前两个字段是主键,生成数据记录 24 亿行。将此表数据导入 Oracle 数据库,同时用它生成集算器 SPL 组表来进行测试。

orderid 字段数据升序排列,按 orderid 进行分组,共有 8 亿组,统计每张订单的总金额和明细条数。由于查询出的大结果集在 Oracle 输出需要很长的时间,所以对分组结果再进行一次过滤,只输出订单总金额小于 35 元的订单,结果只有 12 条,输出就几乎不占时间了。

1.Oracle 测试

编写查询测试 SQL 如下:

select * from (

select /*+ parallel(n) */

orderid, sum(amount) sum_amount, count(detailid) as details

from orderdetail_2

group by orderid

)

where sum_amount<35;

其中 /*+ parallel(n) */ 用于并行测试,n 为并行数。

2.SPL 测试

编写 SPL 脚本如下:

由于分组结果集很大,无法全部装载到内存,所以使用 group 函数进行有序分组,返回分组结果集对应的游标,再对游标过滤后取得需要的查询结果。

3. 测试结果

测试结果如下,单位 (秒):

在不并行的情况下,SPL 有序分组比 Oracle 性能提升了近 6 倍左右。因 SPL 有序分组方法很适合并行,随着并行数的增加,性能提升的效果就越好。

相关推荐

电子EI会议!投稿进度查

今天为大家推荐一个高性价比的电子类EI会议——IEEE电子与通信工程国际会议(ICECE2024)会议号:IEEE#62199截稿时间:2024年3月25日召开时间与地点:2024年8月15...

最“稳重”的滤波算法-中位值滤波算法的思想原理及C代码实现

在信号处理和图像处理领域,滤波算法是一类用于去除噪声、平滑信号或提取特定特征的关键技术。中位值滤波算法是一种常用的非线性滤波方法,它通过取一组数据的中位值来有效减小噪声,保留信号的有用特征,所以是最稳...

实际工程项目中是怎么用卡尔曼滤波的?

就是直接使用呀!个人认为,卡尔曼滤波有三个个关键点,一个是测量,一个是预测,一个是加权测量:通过传感器,获取传感器数据即可!预测:基于模型来进行数据预测;那么问题来了,如何建模?有难有易。加权:主要就...

我拿导弹公式算桃花,结果把自己炸成了烟花

第一章:学术圈混成“顶流”,全靠学生们把我写成段子最近总有人问我:“老师,您研究导弹飞行轨迹二十年,咋还顺带研究起月老红绳的抛物线了?”我扶了扶眼镜,深沉答道:“同志,导弹和爱情的本质都是动力学问题—...

如何更好地理解神经网络的正向传播?我们需要从「矩阵乘法」入手

图:pixabay原文来源:medium作者:MattRoss「机器人圈」编译:嗯~阿童木呀、多啦A亮介绍我为什么要写这篇文章呢?主要是因为我在构建神经网络的过程中遇到了一个令人沮丧的bug,最终迫...

电力系统EI会议·权威期刊推荐!

高录用率EI会议推荐:ICPSG2025(会议号:CFP25J66-PWR)截稿时间:2025年3月15日召开时间与地点:2025年8月18-20日·新加坡论文集上线:会后3个月内提交至S...

EI论文写作全流程指南

推荐期刊《AppliedEnergy》是新能源领域权威EI/SCI双检索期刊,专注能源创新技术应用。刊号:ISSN0306-2619|CN11-2107/TK影响因子:11.2(最新数...

JMSE投稿遇坑 实验结果被推翻

期刊基础信息刊号:ISSN2077-1312全称:JournalofMarineScienceandEngineering影响因子:3.7(最新JCR数据)分区:中科院3区JCRQ2(...

斩获国际特等奖!兰理工数学建模团队为百年校庆献礼

近日,2019年美国大学生数学建模竞赛(MCM-ICM)成绩正式公布。兰州理工大学数学建模团队再创佳绩,分别获得国际特等奖(OutstandingWinner)1项、一等奖(Meritorious...

省气象台开展人员大培训岗位大练兵学习活动

5月9日,省气象台组织开展首次基于Matlab编程语言的数值模式解释应用培训,为促进研究性业务发展,积极开展“人员大培训、岗位大练兵”学习活动起到了积极作用。此次培训基于实际业务需求,着眼高原天气特色...

嵌入式软件培训

培训效果:通过系统性的培训学习,理论与实践相结合,可以胜任相关方向的开发工作。承诺:七大块专业培训,可以任意选择其中感兴趣的内容进行针对性地学习,每期培训2个月,当期没学会,可免费学习一期。本培训内容...

轧机支承辊用重载中低速圆柱滚子轴承滚子修形探讨

摘 要:探讨了轧机支承辊用重载中低速圆柱滚子轴承滚子修形的理论和方法,确定关键自变量。使用Romax软件在特定载荷工况条件下对轴承进行数值模拟分析,确定关键量的取值范围。关键词:轧机;圆柱滚子轴承;滚...

数学建模EI刊,如何避雷?

---权威EI会议推荐会议名称:国际应用数学与工程建模大会(ICAMEM)截稿时间:2025年4月20日召开时间/地点:2025年8月15日-17日·新加坡论文集上线:会后2个月内由Sp...

制造工艺误差,三维共轭齿面怎样影响,双圆弧驱动的性能?

文/扶苏秘史编辑/扶苏秘史在现代工程领域,高效、精确的传动系统对于机械装置的性能和可靠性至关重要,谐波传动作为一种创新的机械传动方式,以其独特的特性在精密机械领域引起了广泛关注。在谐波传动的进一步优化...

测绘EI会议——超详细解析

【推荐会议】会议名称:国际测绘与地理信息工程大会(ICGGE)会议编号:71035截稿时间:2025年3月20日召开时间/地点:2025年8月15-17日·德国慕尼黑论文集上线:会后2个...