百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

机器学习入坑指南(三):简单线性回归

moboyou 2025-04-15 13:15 30 浏览

学习了「数据预处理」之后,让我们一起来实现第一个预测模型——简单线性回归模型。

一、理解原理

简单线性回归是我们接触最早,最常见的统计学分析模型之一。

假定自变量 xxx与因变量 yyy 线性相关,我们可以根据一系列已知的 (x,y)数据,通过某种方法,拟合出一条直线 y=b0+b1x,并利用这条直线预测 y的值 。这种方法就叫作简单线性回归。

那么我们该如何去拟合出这条直线,才能使预测的结果最准确呢?

常用的方法是最小二乘法。

最小二乘法

课本上关于最小二乘法的概念困扰了我许久,后来无意中看到了它的英文——

Least Squares Method(LSM),平方…二乘…嗯,没毛病。

沿用这个名称可以理解,算是一种情怀或是传承,但是我想说一个事物的名称真的很重要,一个不恰当的名字会徒增很多理解上的负担。(比如区块链,取这么个名字就没想让一般群众理解,我第一次看见这个名字时的感觉就是不知所云)


不吐槽了,最小二乘法,或者按我的翻译——平方和最小法,就是使得已知的yi值与通过模型预测得到的 yp之间的差值的平方之和



最小。一般我们取√Sum来表示 之间的距离之和。

根据这个条件,我们可以求出直线的截距 b0和斜率 b1,得到我们所需的线性模型。对求解过程有兴趣的同学可以参考 CSDN - 普通最小二乘法的推导证明,当然,对 Python 来说,我们可以不关注具体实现的方式而直接去利用封装好的模型。时间和精力有限的同学跟着往下走就好。

梯度下降法 *

对于简单线性回归,我们可以使用解析的方法求出参数,但对于广义的、多元的线性回归以及非线性的问题,使用解析法是低效的甚至是无效的。

考虑到计算机能够进行大量重复计算,实际上我们通常使用迭代的方法来求得参数。所谓迭代,即按照一定的步长逐个取参数值,并按某种原则(如最小二乘)评估用这些值进行拟合的合理性,最终选取最合适的参数值。

梯度下降法是一种常见的迭代方法,解决了当有多个自变量(特征)时往什么方向(选取什么方向的特征向量)迭代能够使函数值最终收敛到最小值的问题。

实际上,在输入特征较多的情况下,使用迭代法所需的计算量将远远小于解析法。

关于如何理解梯度下降法及其数学原理,参见我的文章「如何理解梯度下降法」。

二、代码实现

之前,我们搭建好了进行数据分析所需的 Python 环境(还没有搭建好的同学可以参考我的文章「机器学习入坑指南(一):Python 环境搭建」), 接下来,我们将实现简单线性回归模型。 建议大家和我一样使用 Jupyter Notebook,在后面你会更深刻地感受到它的魅力。

1 数据预处理

第一步当然就是上一篇文章讲解的数据预处理啦,代码如下:

# 导入需要的库

import pandas as pd

import numpy as np

import matplotlib.pyplot as plt

# 读取数据

dataset = pd.read_csv('studentscores.csv')

X = dataset.iloc[ : , : 1 ].values

Y = dataset.iloc[ : , 1 ].values

# 分割数据

from sklearn.cross_validation import train_test_split

X_train, X_test, Y_train, Y_test = train_test_split( X, Y, test_size = 1/4, random_state = 0)


示例数据地址:GitHub -
Avik-Jain/100-Days-Of-ML-Code/datasets

对这个过程不熟悉的,参考「机器学习入坑指南(二):数据预处理」

2 用训练集拟合简单线性回归模型

sklearn 库为我们提供了许多常用的数学模型,极大地简化了我们进行数据分析的步骤。我们首先导入线性回归模型:

from sklearn.linear_model import LinearRegression

然后,用训练集的数据去训练(拟合)模型

regressor = LinearRegression()

regressor = regressor.fit(X_train, Y_train)

经过训练后,regressor 便得到了拟合的结果,也就是直线的斜率和截距。

3 预测结果

接下来,我们使用拟合完的模型,根据测试集中的 X 值得到预测的 Y 值,这一步也非常简洁:

Y_pred = regressor.predict(X_test)

4 可视化

为了直观地表达模型拟合的效果,我们对上面的数据分析结果进行可视化。

还记得第一步中我们导入的 matplotlib.pyplot 吗?这是专门提供可视化的一个模块,提供了 Matlab 风格的编程接口(呃,我并不擅长 Matlab)。

这里我们使用它提供的两个方法,一个是 scatter,用来画点,另一个是 plot ,用来画线。当然这只是简单的用法,想进一步了解,参考 gitbooks - Pyplot 教程 。

训练集可视化

# 绘出数据点,用红色表示

plt.scatter(X_train , Y_train, color = 'red')

# 绘出拟合的直线,用蓝色表示

plt.plot(X_train , regressor.predict(X_train), color ='blue')

plt.show()


在 Jupyter Notebook 中输入上面的代码,可视化的结果如图



测试集可视化

同理,可视化测试集,输入以下代码

plt.scatter(X_test , Y_test, color = 'red')

plt.plot(X_test , regressor.predict(X_test), color ='blue')

plt.show()


结果如图



注意虽然绘制直线时使用的参数不一样,但直线是同一条直线,只是选取了不同的点。可以看出,预测的结果与实际的结果具有一定的一致性。

简单线性回归适用于使用一元特征来预测数值的情形。在下一篇文章里,我们将讨论多元线性回归。

————————————————

版权声明:本文为CSDN博主「Evan-Nightly」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明。

原文链接:
https://blog.csdn.net/Neuf_Soleil/article/details/81675190

相关推荐

cvpr 2024|注意力校准用于解缠结的文本到图像个性化

AttentionCalibrationforDisentangledText-to-ImagePersonalization研究背景近年来,大规模文本到图像(T2I)模型取得了显著进展,能...

1080P的显示,4K的享受?NVIDIA DSR游戏实测!

游戏玩家对画质的要求越来越高,因此每到新一代显卡推出的时候,除了游戏性能的提升之外,也会采用提升画质的新技术。NVIDIA最新的Geforce900系列显卡也不例外,一起推出的DSR技术号称可以在1...

「学习OpenCV4」OpenCV线性滤波与非线性滤波总结

本文分享内容来自图书《学习OpenCV4:基于Python的算法实战》,该书内容如下:第1章OpenCV快速入门;第2章图像读写模块imgcodecs;第3章核心库模块core;第4章...

增益映射耦合局部正则化的图像重构算法

朱莉(西安科技大学计算机学院,陕西西安710054)摘要:针对当前的图像重构方法在对多帧超分辨率图像复原时,存在明显的模糊效应与振铃效应的不足,提出增益映射控制耦合局部正则化的图像重构算法。首...

图像处理——5种常见的平滑滤波

平滑滤波是一种简单又常见的图像处理操作。平滑图像的目的有很多,但通常都是为了减少噪声和伪影。在OpenCV中共有5种平滑滤波操作,分别是以下几种:测试代码如下:#include<iostream...

C# 图像处理技术——简单的滤波去噪

在C#中,可以使用System.Drawing命名空间中的类来进行图像处理和滤波去噪操作。以下是一个示例代码,演示如何使用平均滤波器进行简单的去噪处理:usingSystem.Drawing;us...

Java,OpenCV,图像模糊,归一化均值滤波,中值滤波器,高斯模糊

图像模糊图像模糊是图像处理中最简单和常用的操作之一,其主要目的之一是给图像预处理的时候降低图像噪声。图像模糊方法可以总结如下:1、归一化均值滤波器(API为blur())2、高斯滤波器(API为Ga...

带频偏校准的GMSK解调器设计与实现

郑婧怡1,高绍全1,姜汉钧1,张春1,王志华1,2,贾雯2(1.清华大学微电子所,北京100084;2.深圳清华大学研究院,广东深圳518055)摘要:提出了一种在零中频低功耗蓝牙接收机中使用...

图像滤波去噪方法及应用场景

在图像处理中,不同滤波方法针对不同类型的噪声和场景具有特定优势。以下是三种常见滤波器的特点和应用场景总结:1.高斯滤波(GaussianFilter)原理:基于高斯函数的加权平均,对邻域像素进行平...

多体系统动力学仿真软件(DAP)

多体系统动力学仿真软件(DAP)-北京西交智众软件科技有限公司–DAP软件简介DAP(DynamicsAnalysisPlatform)软件,源自西南交通大学沈志云院士带队轨道交通运载系统全国...

精品博文图文详解Xilinx ISE14.7 安装教程

在软件安装之前,得准备好软件安装包,可从Xilinx官网上下载:http://china.xilinx.com/support/download/index.html/content/xilinx/z...

酷睿 Ultra 5 和 Ultra 7,或者i5和i7差距多大?

#我来唠家常#提到ultra,我觉得看这个题目,应该主打轻薄本,或者设计本。分两个问题看:ultra7或者i7的优势,ultra相对老款处理器的优势Ultra7的最大优势是:多了2个大核心,这两个大...

直流-直流(DC-DC)变换电路

直流-直流(DC-DC)变换电路,可以将一种直流电源经过变换电路后输出另一种具有不同输出特性的直流电源,可以是一种固定电压或可调电压的直流电。按照电路拓扑结构的不同,DC-DC变换电路可以分成两种形式...

Energies CL致命错误

期刊基础信息·刊号:ISSN1996-1073·全称:Energies·影响因子:3.2·分区:Q2(能源与燃料类)·版面费:2200瑞士法郎·年发文量:约4500篇CoverLett...

基于心电脉搏信号的无创血压算法研究

洋洋,陈小惠(南京邮电大学自动化学院,江苏南京210023)摘要:针对人体血压无创检测问题,提出了一种基于心电信号(Electrocardiogram,ECG)与光电容积脉搏波(Photople...