百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

Spark2.4 jdbc中加入hint

moboyou 2025-03-29 15:05 8 浏览

Spark 我们知道是可以连接数据库的,可以通过spark的API spark.read.jdbc 中可以读取oracle的数据。

但是很多时候我们读取数据库的时候不会全表读,需要加入查询条件,例如 创建时间。这个时候我们调用spark的jdbc的时候,需要指定查询的分区。

例如 查询 created_time 在 2019年1月~2019年2月之间 的数据,表是table1。

如果写

 spark.read.jdbc(prop.getProperty("url"), "table1", prop)
.filter("created_time>=cast('xxxxx' as timestamp) and created_time<cast('xxx' as timestamp)")

那么,恭喜你,完了,如果table1 是一张大表,你这样查询 会直接让公司dba找你。

其次,你也无法有效利用spark的并发,这么做只会有一个task任务,这个任务就是执行 select * from ..... where ....

那么稍微明智点。每个task任务查询一天的数据。

spark.read.jdbc(prop.getProperty("url"), "table1", Array("created_time>=to_Date('xxxx','yyyymmdd') and created_time=to_Date('xxxx','yyyymmdd') and created_time<to_Date('xxxx','yyyymmdd')"......), coreProp)

这样,tasknum=3的话,起码每次会跑3个任务,也就是说 同时查3天的数据,稍微好点了。

但是 其实我们需要对数据库压力尽可能的小,如果table1 有created_time的单独索引还好,但是要是没有单独索引,而是有多个联合索引,那么万一选错了索引就会增大数据库的查询压力。

这个时候就需要用到hint了,数据库的hint可以尽可能的让本次查询按照我们自己指定的索引去查询。

可问题是 spark提供的API中 貌似没有可以加 hint的地方,那难道只能修改spark的源码了吗?

答案是

不。

其实,我们仔细看,spark 的jdbc中对 table 并没有强制的校验。可以把table变成一个查询,例如

table 变成 (select /*+index(A IDX_BILL_UPDATE ) */... from A where ....)t

这样就完成了 hint的引用了。

多想一下,就可以做到更多的事情了。

当然为了尽可能的利用CPU,还可以使用 ExecutorService 做 多线程。

在多线程中运行spark任务,这样运行的效率会更高,当然中间会有坑,例如 如何解决


办法肯定是有的,但是就不再这里一一赘述了。本次就 讲到spark中如何使用hint去查询数据。

相关推荐

一种直扩MSK信号的二维联合捕获方法

袁美娟,蒋芸茹,施镇峰,孙红磊,鲍昱蒙,蔡雨琦(南京理工大学电子工程与光电技术学院,江苏南京210094)摘要:针对直扩MSK信号的特殊性以及高动态环境下载波多普勒频偏对伪码捕获的影响,提出了一...

基于动态分块阈值与双重VAD检测的时频域自适应去噪算法

基于动态分块阈值与双重VAD检测的时频域自适应去噪算法(MATLAB)动态分块阈值:采用SURE准则优化块尺寸与阈值双重VAD检测:粗精两级语音活动检测提升噪声估计精度时频域自适应:结合IMCRA噪声...

JECE审稿意见太狠如何回复?

期刊关键参数ISSN2213-1388|IF=5.2|Q1区版面费2200美元|年发文1200+结构化应对框架回复信三要素:1.致谢+总结改进(例:"感谢指出模型验证不足,已补充三组对比实...

三维基因组: SELFISH 差异分析

引言本系列主要讲解3D-Genome(Hi-C)系列的分析,主要涉及三维基因组分析中的数据处理,重复性评估,Compartment/TAD/Loop检测,差异分析等,欢迎关注!SELFISHS...

电力EI会议,高录用技巧公开!

【推荐会议】IEEE电力与能源协会年会(PESGM)会议号:IEEEConference#PE-2026截稿时间:2026年1月15日举办时间与地点:2026年7月26日-30日·美国丹...

浅谈船舶交流电网在线绝缘监测装置研究

摘要:针对船舶供电系统电缆的绝缘状态问题,设计了一款电缆绝缘在线监测装置。装置采用低频交流注入法,在IT系统的中心点注入低频的交流信号,通过取样电路和A/D量化检测注入信号在电路中的响应,采用FIR滤...

使用Simulink学习STM32-(1)点亮一颗LED实验

本次实验系统环境Matlab版本:2021b系统环境:Win10专业版硬件平台:YF-STM32-ALPHA1R4模型与原理图simulink模型如图5.1所示,实验现象为PB8以0.5S周期反...

利用Proteus仿真STM32实现DHT11温湿度检测

1.前言Proteus是英国著名的EDA工具(仿真软件),从原理图布图、代码调试到单片机与外围电路协同仿真,一键切换到PCB设计,真正实现了从概念到产品的完整设计。是世界上唯一将电路仿真软件、PC...

使用ADSP-CM408F ADC控制器的电机控制反馈采样时序

简介本应用笔记介绍ADSP-CM408F模数转换器控制器(ADCC)模块的主要特性,重点讨论该产品在高性能电机控制应用的电流反馈系统中的相关性与可用性。本应用笔记的目的是为了强调模数转换器(DAC)模...

基于DSP的主动降噪系统设计与实现

摘要:针对发动机等工作时产生的周期噪声,进行主动降噪系统设计与实现。主要工作为降噪程序的设计和基于DSP的硬件实现。其中降噪程序采用自适应算法中的反馈滤波-X-最小均方算法,对此算法进行了简要讲解...

怎样消除薄膜收放卷上的静电

》收放卷常见静电危害!收放卷应用贯穿所有行业,无论是塑料薄膜、纸张、还是纺织品。而在快速收放卷的过程中,物料与辊之间会产生大量的摩擦、剥离、挤压,使物体表面积聚不同电性的静电荷,且随速度增加和时长增加...

电力EI会议,这些刊慎投!

推荐优质会议:ICPEET2025(电力工程与智能技术国际会议)会议号:IEEE-CPS#0123截稿时间:2025年4月30日召开时间/地点:2025年8月15-17日·成都论文集上...

电工布线现场工程图,简直就是手工艺术品展览

今天我们就来分享一波电工布线图,简直是一道道手工艺术品展览!电工布线是被很多人忽略的一个项目,其实这也是个技术活,因地制宜地设计布线方案、而且要同时注重美观和实用,同时要求具有一定的可扩展性。更多电工...

基于FPGA的伪随机序列发生器设计

基于FPGA的伪随机序列发生器设计1基本概念与应用1)LFSR:线性反馈移位寄存器(linearfeedbackshiftregister,LFSR)是指给定前一状态的输出,将该输出的线性...

五种算法(DBO、LO、SWO、COA、LSO、KOA、GRO)路径规划MATLAB

五种算法(DBO、LO、SWO、COA、LSO、KOA、GRO)求解无人机路径规划MATLAB