百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

7种不同的数据标准化(归一化)方法总结

moboyou 2025-09-18 04:11 3 浏览

数据的归一化是数据预处理中重要的的一步,很多种方法都可以被称作数据的归一化,例如简单的去除小数位,而更高级归一化技术才能对我们训练有所帮助,例如 z-score 归一化。

所以本文总结了 7 种常见的数据标准化(归一化)的方法。

  1. Decimal place normalization
  2. Data type normalization
  3. Formatting normalization (date abbreviations, date order, & deliminators)
  4. Z-Score normalization
  5. Linear normalization (“Max-Min”)
  6. Clipping normalization
  7. Standard Deviation Normalization

Decimal place normalization,小数位归一化

小数位归一化发生在具有数字类型的数据表中。 如果你使用过 Excel,你就会知道这是如何发生的。 默认情况下,Excel 会保留小数点后两位数字,也可以设定小数的位数,并在整个表格中进行统一。

Data type normalization,数据类型归一化

另一种常见是对数据类型的归一化。在 Excel 或 SQL 查询数据库中构建数据表时,可能会发现自己查看的数字数据有时被识别为货币,有时被识别为文本,有时被识别为数字,有时被识别为逗号分割的字符串。

问题是这些数值数据对公式和各种分析处理的操作是不一样的。所以就需要将它们统一成相同的类型。。

Formatting normalization,格式的归一化

最后一个简单的技术是格式的归一化。 这对于字符串(文本)是很常见的,并且在印刷和打印方向上出现的更多。虽然这些问题不会对分析产生影响,但是他可能会分散我们的注意力和现实的效果,例如斜体、粗体或下划线或者字体与其他的文字显示不一样。

Z-Score normalization

当我们的数据在多个维度上存在显著的大小差的数值时怎么办?例如,如果一个维度的值从 10 到 100,而另一个维度的值从 100 到 100,000,则很难比较两者的相对变化。

对于这个问题,目前最好的解决方案就是归一化。在日常工作中,最常见的归一化类型是 Z-Score 。 简单来说,Z-Score 将数据按比例缩放,使之落入一个特定区间。 公式如下:

其中 X 是数据值,μ 是数据集的平均值,σ 是标准差。

Linear normalization (“Max-Min”)

线性归一化可以说是更容易且更灵活的归一化技术。 它通常被称为“max-min”归一化,它允许分析人员获取集合中最大 x 值和最小 x 值之间的差值,并建立一个基数。

这是一个很好的开始策略,实际上,线性归一化可以将数据点归一化为任何基数。 下是线性归一化的公式:

假设“x”值为 20,最大数字为 55,最小数字为 5。为了归一化这个数字,让我们从分母开始,结果为50 (55-5) 。 现在用同样的想法计算分子:x - min=15 (20–5)。 所以我们标准化的 x 或 x ' 是 15/50 = 0.3。

Clipping normalization,剪裁归一化

裁剪并不完全是一种归一化技术,他其实是在使用归一化技术之前或之后使用的一个操作。 简而言之,裁剪包括为数据集建立最大值和最小值,并将异常值重新限定为这个新的最大值或最小值。

例如有一个由数字 [14, 12, 19, 11, 15, 17, 18, 95] 组成的数据集。 数字 95 是一个很大的异常值。 我们可以通过重新分配新的最大值将其从数据中剔除。 由于删除95后,数据集的范围是 11-19,因此可以将最大值重新分配为 19。最小值也同理

需要注意的是,裁剪不会从数据集中删除点,它只是重新计算数据中的统计值。

Standard Deviation Normalization,标准差归一化

假设我们的数据有五行 ,他们的ID 为 A、B、C、D 和 E,每行包含 n 个不同的变量(列)。 我们在下面的计算中使用记录 E 作为示例。 其余行以相同方式进行标准化。

第 i 列中 E 行的 ei 的归一化值计算如下:

如果E行的所有值都是相同的,那么E的标准差(std(E))等于0,那么E行的所有值都设为0。

那些算法需要归一化

1、涉及或隐含距离计算的算法,比如K-means、KNN、PCA、SVM等,一般需要进行归一化

2、梯度下降算法,梯度下降的收敛速度取决于:参数的初始位置到local minima的距离,以及学习率η的大小

3、采用sigmoid等有饱和区的激活函数,如果输入分布范围很广,参数初始化时没有适配好,很容易直接陷入饱和区,导致梯度消失,所以才会出现各种BN,LN等算法

那些算法不需要归一化

与距离计算无关的概率模型,比如Naive Bayes,不需要;

与距离计算无关的基于树的模型,比如决策树、随机森林等,树中节点的选择只关注当前特征在哪里切分对分类更好,即只在意特征内部的相对大小,而与特征间的相对大小无关。但是我们前几篇文章中说到了,使用Z-Score归一化会提高模型的准确率。其实归一化的作用就是由绝对变为了相对,所以可以说归一化对于树型模型不那么重要,是一个可选项或者说可以作为一个超参数在训练时进行选择。

作者:Manish

相关推荐

一个时间选择器,为何大家都不相同

在自媒体平台的定时发布功能中,看似基础的时间选择器,在不同平台却呈现出显著差异——从时间范围限制、日期展示方式,到时间精度与交互布局,各平台设计均有侧重,这些差异背后,实则是对用户场景、操作便捷性...

全新生成模型「离散分布网络DDN」如何做到原理简单,性质独特?

本文作者杨磊,目前在大模型初创公司阶跃星辰担任后训练算法工程师,其研究领域包括生成模型和语言模型后训练。在这之前,他曾在旷视科技担任了六年的计算机视觉算法工程师,从事三维视觉、数据合成等方向。他于2...

大模型“记性差一点”反而更聪明!随机剔除token,让AI不再死记硬背

训练大模型时,有时让它“记性差一点”,反而更聪明!大语言模型如果不加约束,很容易把训练数据原封不动地复刻出来。为解决这个问题,来自马里兰大学、图宾根大学和马普所的研究团队提出了一个新方法——金鱼损失(...

彩票并非纯靠运气!老彩民绝不会告诉你的,五个选号笨办法!

在许多人眼里,购买彩票纯粹是一场与命运的对赌,完全依赖于那缥缈的运气。然而,真正深入其中的老彩民们却深知,虽然最终的开奖号码随机,但在选号的过程中,确实存在一些值得琢磨的“门道”。这些方法看似“笨拙”...

老程序员爱用AI写代码:调查显示三成资深工程师一半代码靠AI生成

IT之家9月8日消息,一项新调查深入剖析了生成式人工智能(GenAI)对软件开发者日常工作的变革作用。结果显示,不同资历的工程师呈现出明显分化:资深工程师更倾向于大量使用AI生成代码,主动...

告别手动!4种批量建Excel,省时还不出错

你是不是也遇到过这种情况:月底要做报表,要给每个部门单独建一个Excel;项目汇总,每个客户都得生成一份数据文件。光是新建、命名、保存这一套流程,就得重复几十遍。鼠标点到手酸,眼睛还得紧盯着生怕出错,...

财务多个发票凑一个金额,花了1天,同事用Excel2分钟搞定

我们现在有很多发票金额,如下是模拟的数据,这里有10张发票然后总金额是固定的,是由以下的发票金额凑起来正好的数值也不确定具体是几张发票凑起来的现在需要快速的将它们找出来,正好凑好总金额遇到这种凑金额的...

调和随机数的混沌_随机调配

编者按本文来自作家、游戏智慧(Game-Wisdom.com)创始人乔希·拜瑟(JoshBycer)的个人博客,由indienova取得授权并译制发表,原文链接见文末。正文随机数生成(Rando...

大模型“记性差一点”反而更聪明,金鱼损失随机剔除token,让AI不再死记硬背

训练大模型时,有时让它“记性差一点”,反而更聪明!大语言模型如果不加约束,很容易把训练数据原封不动地复刻出来。为解决这个问题,来自马里兰大学、图宾根大学和马普所的研究团队提出了一个新方法——金鱼损失(...

彩票店老板绝不会告诉你的十个选号潜规则!早知道早中奖!

每天都有无数彩民走进彩票店,怀揣着梦想购买一两注彩票。你可曾想过,那些看似随机的数字背后,可能隐藏着一些不为人知的"潜规则"?经过多方打探和走访,我们终于整理出彩票店老板绝不会主动告诉...

Excel数据重塑利器:WRAPROWS和WRAPCOLS函数详解

WRAPROWS和WRAPCOLS是ExcelforMicrosoft365中引入的两个新函数,它们能够将单行或单列的数据按照指定的方式重新排列成多行多列的二维数组。WRAPROWS:...

生成式AI不是“通用智能”,而是“工具革命”:企业落地的3个关键思考

从ChatGPT到Midjourney,生成式AI的“魔法”正在席卷各行各业。但在热潮之下,我们更需要冷静思考:它真的具备“智能”吗?其实,生成式AI不是通用智能的雏形,而是一场信息处理方式的“工具革...

建议收藏!BigemapPro 快捷命令+函数公式大全,效率直接拉满

在使用BigemapPro处理地理数据时,熟练掌握快捷命令和函数公式能极大提升工作效率,告别重复操作,让你的地图编辑、数据处理更高效。今天,就为大家整理了一份超全的BigemapPro实用技巧,涵盖常...

Excel制作小型抽奖系统,可以内定结果,拿去用

“年会抽奖还能内定?别笑,我亲眼见过。”这句话一出,会议室瞬间安静,老板都忍不住探头。其实内定不是黑幕,而是技术——Excel就能搞定。三分钟搭好,零代码基础也能玩得飞起,关键是还能让全场嗨到尖叫。先...

告别加班!27个Excel新函数全面升级你的工作效率,新手必看!

今天我要为大家带来27个Excel新函数全面解析,这些都是微软近年来推出的重磅功能,能够让你的工作效率提升十倍不止!一、动态数组革命:彻底改变Excel计算方式FILTER函数-按条件筛选数据=F...