Spark2.4 jdbc中加入hint

Spark 我们知道是可以连接数据库的，可以通过spark的API spark.read.jdbc 中可以读取oracle的数据。

但是很多时候我们读取数据库的时候不会全表读，需要加入查询条件，例如创建时间。这个时候我们调用spark的jdbc的时候，需要指定查询的分区。

例如查询 created_time 在 2019年1月～2019年2月之间的数据，表是table1。

如果写

 spark.read.jdbc(prop.getProperty("url"), "table1", prop)
.filter("created_time>=cast('xxxxx' as timestamp) and created_time<cast('xxx' as timestamp)")

那么，恭喜你，完了，如果table1 是一张大表，你这样查询会直接让公司dba找你。

其次，你也无法有效利用spark的并发，这么做只会有一个task任务，这个任务就是执行 select * from ..... where ....

那么稍微明智点。每个task任务查询一天的数据。

spark.read.jdbc(prop.getProperty("url"), "table1", Array("created_time>=to_Date('xxxx','yyyymmdd') and created_time=to_Date('xxxx','yyyymmdd') and created_time<to_Date('xxxx','yyyymmdd')"......), coreProp)

这样，tasknum=3的话，起码每次会跑3个任务，也就是说同时查3天的数据，稍微好点了。

但是其实我们需要对数据库压力尽可能的小，如果table1 有created_time的单独索引还好，但是要是没有单独索引，而是有多个联合索引，那么万一选错了索引就会增大数据库的查询压力。

这个时候就需要用到hint了，数据库的hint可以尽可能的让本次查询按照我们自己指定的索引去查询。

可问题是 spark提供的API中貌似没有可以加 hint的地方，那难道只能修改spark的源码了吗？

答案是

不。

其实，我们仔细看，spark 的jdbc中对 table 并没有强制的校验。可以把table变成一个查询，例如

table 变成 (select /*+index(A IDX_BILL_UPDATE ) */... from A where ....)t

这样就完成了 hint的引用了。

多想一下，就可以做到更多的事情了。

当然为了尽可能的利用CPU，还可以使用 ExecutorService 做多线程。

在多线程中运行spark任务，这样运行的效率会更高，当然中间会有坑，例如如何解决

办法肯定是有的，但是就不再这里一一赘述了。本次就讲到spark中如何使用hint去查询数据。

相关推荐

Excel技巧:SHEETSNA函数一键提取所有工作表名称批量生产目录: 首先介绍一下此函数：SHEETSNAME函数用于获取工作表的名称，有三个可选参数。语法：=SHEETSNAME([参照区域],[结果方向],[工作表范围])（参照区域，可选。给出参照，只返回参照单元格...

Excel HOUR函数:“小时”提取器_excel+hour函数提取器怎么用: 一、函数概述HOUR函数是Excel中用于提取时间值小时部分的日期时间函数，返回0（12:00AM）到23（11:00PM）之间的整数。该函数在时间数据分析、考勤统计、日程安排等场景中应用广泛。语...

Filter+Search信息管理不再难|多条件|模糊查找|Excel函数应用: 原创版权所有介绍一个信息管理系统，要求可以实现:多条件、模糊查找，手动输入的内容能去空格。先看效果，如下图动画演示这样的一个效果要怎样实现呢？本文所用函数有Filter和Search。先用filter...

FILTER函数介绍及经典用法12:FILTER+切片器的应用: EXCEL函数技巧：FILTER经典用法12。FILTER+切片器制作筛选按钮。FILTER的函数的经典用法12是用FILTER的函数和切片器制作一个筛选按钮。像左边的原始数据，右边想要制作一...

office办公应用网站推荐_office办公软件大全: 以下是针对Office办公应用（Word/Excel/PPT等）的免费学习网站推荐，涵盖官方教程、综合平台及垂直领域资源，适合不同学习需求：一、官方权威资源1.微软Office官方培训...

WPS/Excel职场办公最常用的60个函数大全(含卡片)，效率翻倍!: 办公最常用的60个函数大全：从入门到精通，效率翻倍！在职场中，WPS/Excel几乎是每个人都离不开的工具，而函数则是其灵魂。掌握常用的函数，不仅能大幅提升工作效率，还能让你在数据处理、报表分析、自动...

批量查询快递总耗时?用Excel这个公式，自动计算揽收到签收天数: 批量查询快递总耗时？用Excel这个公式，自动计算揽收到签收天数在电商运营、物流对账等工作中，经常需要统计快递“揽收到签收”的耗时——比如判断某快递公司是否符合“3天内送达”的服务承...

Excel函数公式教程(490个实例详解): Excel函数公式教程（490个实例详解）管理层的财务人员为什么那么厉害？就是因为他们精通excel技能！财务人员在日常工作中，经常会用到Excel财务函数公式，比如财务报表分析、工资核算、库存管理等...

Excel(WPS表格)Tocol函数应用技巧案例解读，建议收藏备用!: 工作中，经常需要从多个单元格区域中提取唯一值，如体育赛事报名信息中提取唯一的参赛者信息等，此时如果复制粘贴然后去重，效率就会很低。如果能合理利用Tocol函数，将会极大地提高工作效率。一、功能及语法结...

Excel中的SCAN函数公式，把计算过程理清，你就会了: Excel新版本里面，除了出现非常好用的xlookup，Filter公式之外，还更新一批自定义函数，可以像写代码一样写公式其中SCAN函数公式，也非常强大，它是一个循环函数，今天来了解这个函数公式的计...

Excel(WPS表格)中多列去重就用Tocol+Unique组合函数，简单高效: 在数据的分析和处理中，“去重”一直是绕不开的话题，如果单列去重，可以使用Unique函数完成，如果多列去重，如下图：从数据信息中可以看到，每位参赛者参加了多项运动，如果想知道去重后的参赛者有多少人，该...

Excel(WPS表格)函数Groupby，聚合统计，快速提高效率!: 在前期的内容中，我们讲了很多的统计函数，如Sum系列、Average系列、Count系列、Rank系列等等……但如果用一个函数实现类似数据透视表的功能，就必须用Groupby函数，按指定字段进行聚合汇...

Excel新版本，IFS函数公式，太强大了!: 我们举一个工作实例，现在需要计算业务员的奖励数据，右边是公司的奖励标准：在新版本的函数公式出来之前，我们需要使用IF函数公式来解决1、IF函数公式IF函数公式由三个参数组成，IF(判断条件，对的时候返...

Excel不用函数公式数据透视表，1秒完成多列项目汇总统计: 如何将这里的多组数据进行汇总统计？每组数据当中一列是不同菜品，另一列就是该菜品的销售数量。如何进行汇总统计得到所有的菜品销售数量的求和、技术、平均、最大、最小值等数据？不用函数公式和数据透视表，一秒就...

相关推荐

Linux环境中查看Oracle错误和警告日志信息

絮语----工作四年的碎碎念

SQL 中的 (+)用法

oracle常见问题处理

MYSQL经典面试题汇总

医院信息系统突发应急演练记录

Windows 11:已知问题和已解决问题列表(更新时间:2022年1月)

最全面的IBMS系统集成系统技术规格书，赶紧收藏起来!

苹果停止更新Windows版QuickTime!

Linux下开源BI工具Metabase本地化安装及配置详解