百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

Hive如何比较两张表所有字段的一致性

moboyou 2025-03-28 13:03 8 浏览

前言

随着MySQL技术发展,通过垂直或水平拆分能够支持相当大的数据量,目前很多公司把SQLServer、Oracledb或其他数据库迁移到MySQL上,迁移数据量很大(数据库已经水平拆分成很多Shard),如何比较所有数据的一致性呢?

问题剖析

  1. 数据库迁移步骤:双写DB -> 数据一致性保证 -> 旧DB读流量逐步迁移到新DB -> 单写新DB -> 下线旧DB。迁移过程中问题很多,本章只给出数据已经同步到Hive,怎么校验Hive数据的一致性,线上一致性会在其他章节中给出。
  2. 问题是:迁移地表有成百上千张,如何比较每张表的每个字段的一致性呢?

实现思路

  • 思路:通过Job生成比较脚本,分发到调度系统,每天调度比较脚本,将比较不一致的结果存放到统计表中,通过报表平台将不一致日报发出,跟踪日报排查不一致问题,将问题反馈给大数据平台,让大数据平台解决不一致。
  • 统计表按天分区再按表分区d='2021-01-01',h=表名。
  • 大数据平台一致性校验可以校验出生产表的不一致和Hive同步的一致,前者需要开发排查解决,后者需要大数据平台解决。

实现思路

  • 表主键是orderid。

表主键是orderid


  • 表主键不是orderid而是联合主键。

  • UDF函数将所有业务字段拼接成string用于比较。

常见问题

  1. 时间日期类型Date、DateTime、Timestamp字段,SQL Server毫秒精度只到0,3,7结尾和MySQL不一致,需要对该类型截取处理,特别是业务字段是这样的类型是按需截取。
  2. Float,Double字段存在精度问题,如果两边不一致需要通过CAST函数转换后再比较。
  3. 对于带小数的字段,因SQL Server和MySQL报错的小数位不同,需要截取掉小数末尾的0后再比较。
  4. SQL Server的xml类型和MySQL的text类型存储了xml数据时前会将xml头()去掉,要单独处理。
  5. 因两边数据同步时差,应排除掉当天的增量数据。
  6. 特殊Case处理:忽略非业务字段,非严格字段导致截取的字段。

附UDF函数

import org.apache.hadoop.hive.ql.exec.UDF;

/**
 * @Description:全量字段拼接
 */
public class JointFieldsUdf extends UDF {
    public String evaluate(String... fields) {
        StringBuffer sb = new StringBuffer();
        for (String item : fields) {
            if (item != null) {
                //去掉含小数点数字末尾的零
                if (item.indexOf(".") > -1) {
                    sb.append(item.trim().replaceAll("(0)+$", "").replaceAll("\\.", "")).append("_");
                } else {
                    sb.append(item.trim()).append("_");
                }
            } else {
                sb.append(item).append("_");
            }
        }
        return sb.toString().substring(0, sb.length() - 1);
    }
}

pom


    org.apache.hive
    hive-exec
    2.2.0

好经验分享给你,关注我学知识!

相关推荐

一种直扩MSK信号的二维联合捕获方法

袁美娟,蒋芸茹,施镇峰,孙红磊,鲍昱蒙,蔡雨琦(南京理工大学电子工程与光电技术学院,江苏南京210094)摘要:针对直扩MSK信号的特殊性以及高动态环境下载波多普勒频偏对伪码捕获的影响,提出了一...

基于动态分块阈值与双重VAD检测的时频域自适应去噪算法

基于动态分块阈值与双重VAD检测的时频域自适应去噪算法(MATLAB)动态分块阈值:采用SURE准则优化块尺寸与阈值双重VAD检测:粗精两级语音活动检测提升噪声估计精度时频域自适应:结合IMCRA噪声...

JECE审稿意见太狠如何回复?

期刊关键参数ISSN2213-1388|IF=5.2|Q1区版面费2200美元|年发文1200+结构化应对框架回复信三要素:1.致谢+总结改进(例:"感谢指出模型验证不足,已补充三组对比实...

三维基因组: SELFISH 差异分析

引言本系列主要讲解3D-Genome(Hi-C)系列的分析,主要涉及三维基因组分析中的数据处理,重复性评估,Compartment/TAD/Loop检测,差异分析等,欢迎关注!SELFISHS...

电力EI会议,高录用技巧公开!

【推荐会议】IEEE电力与能源协会年会(PESGM)会议号:IEEEConference#PE-2026截稿时间:2026年1月15日举办时间与地点:2026年7月26日-30日·美国丹...

浅谈船舶交流电网在线绝缘监测装置研究

摘要:针对船舶供电系统电缆的绝缘状态问题,设计了一款电缆绝缘在线监测装置。装置采用低频交流注入法,在IT系统的中心点注入低频的交流信号,通过取样电路和A/D量化检测注入信号在电路中的响应,采用FIR滤...

使用Simulink学习STM32-(1)点亮一颗LED实验

本次实验系统环境Matlab版本:2021b系统环境:Win10专业版硬件平台:YF-STM32-ALPHA1R4模型与原理图simulink模型如图5.1所示,实验现象为PB8以0.5S周期反...

利用Proteus仿真STM32实现DHT11温湿度检测

1.前言Proteus是英国著名的EDA工具(仿真软件),从原理图布图、代码调试到单片机与外围电路协同仿真,一键切换到PCB设计,真正实现了从概念到产品的完整设计。是世界上唯一将电路仿真软件、PC...

使用ADSP-CM408F ADC控制器的电机控制反馈采样时序

简介本应用笔记介绍ADSP-CM408F模数转换器控制器(ADCC)模块的主要特性,重点讨论该产品在高性能电机控制应用的电流反馈系统中的相关性与可用性。本应用笔记的目的是为了强调模数转换器(DAC)模...

基于DSP的主动降噪系统设计与实现

摘要:针对发动机等工作时产生的周期噪声,进行主动降噪系统设计与实现。主要工作为降噪程序的设计和基于DSP的硬件实现。其中降噪程序采用自适应算法中的反馈滤波-X-最小均方算法,对此算法进行了简要讲解...

怎样消除薄膜收放卷上的静电

》收放卷常见静电危害!收放卷应用贯穿所有行业,无论是塑料薄膜、纸张、还是纺织品。而在快速收放卷的过程中,物料与辊之间会产生大量的摩擦、剥离、挤压,使物体表面积聚不同电性的静电荷,且随速度增加和时长增加...

电力EI会议,这些刊慎投!

推荐优质会议:ICPEET2025(电力工程与智能技术国际会议)会议号:IEEE-CPS#0123截稿时间:2025年4月30日召开时间/地点:2025年8月15-17日·成都论文集上...

电工布线现场工程图,简直就是手工艺术品展览

今天我们就来分享一波电工布线图,简直是一道道手工艺术品展览!电工布线是被很多人忽略的一个项目,其实这也是个技术活,因地制宜地设计布线方案、而且要同时注重美观和实用,同时要求具有一定的可扩展性。更多电工...

基于FPGA的伪随机序列发生器设计

基于FPGA的伪随机序列发生器设计1基本概念与应用1)LFSR:线性反馈移位寄存器(linearfeedbackshiftregister,LFSR)是指给定前一状态的输出,将该输出的线性...

五种算法(DBO、LO、SWO、COA、LSO、KOA、GRO)路径规划MATLAB

五种算法(DBO、LO、SWO、COA、LSO、KOA、GRO)求解无人机路径规划MATLAB