百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

机器学习入坑指南(三):简单线性回归

moboyou 2025-04-15 13:15 44 浏览

学习了「数据预处理」之后,让我们一起来实现第一个预测模型——简单线性回归模型。

一、理解原理

简单线性回归是我们接触最早,最常见的统计学分析模型之一。

假定自变量 xxx与因变量 yyy 线性相关,我们可以根据一系列已知的 (x,y)数据,通过某种方法,拟合出一条直线 y=b0+b1x,并利用这条直线预测 y的值 。这种方法就叫作简单线性回归。

那么我们该如何去拟合出这条直线,才能使预测的结果最准确呢?

常用的方法是最小二乘法。

最小二乘法

课本上关于最小二乘法的概念困扰了我许久,后来无意中看到了它的英文——

Least Squares Method(LSM),平方…二乘…嗯,没毛病。

沿用这个名称可以理解,算是一种情怀或是传承,但是我想说一个事物的名称真的很重要,一个不恰当的名字会徒增很多理解上的负担。(比如区块链,取这么个名字就没想让一般群众理解,我第一次看见这个名字时的感觉就是不知所云)


不吐槽了,最小二乘法,或者按我的翻译——平方和最小法,就是使得已知的yi值与通过模型预测得到的 yp之间的差值的平方之和



最小。一般我们取√Sum来表示 之间的距离之和。

根据这个条件,我们可以求出直线的截距 b0和斜率 b1,得到我们所需的线性模型。对求解过程有兴趣的同学可以参考 CSDN - 普通最小二乘法的推导证明,当然,对 Python 来说,我们可以不关注具体实现的方式而直接去利用封装好的模型。时间和精力有限的同学跟着往下走就好。

梯度下降法 *

对于简单线性回归,我们可以使用解析的方法求出参数,但对于广义的、多元的线性回归以及非线性的问题,使用解析法是低效的甚至是无效的。

考虑到计算机能够进行大量重复计算,实际上我们通常使用迭代的方法来求得参数。所谓迭代,即按照一定的步长逐个取参数值,并按某种原则(如最小二乘)评估用这些值进行拟合的合理性,最终选取最合适的参数值。

梯度下降法是一种常见的迭代方法,解决了当有多个自变量(特征)时往什么方向(选取什么方向的特征向量)迭代能够使函数值最终收敛到最小值的问题。

实际上,在输入特征较多的情况下,使用迭代法所需的计算量将远远小于解析法。

关于如何理解梯度下降法及其数学原理,参见我的文章「如何理解梯度下降法」。

二、代码实现

之前,我们搭建好了进行数据分析所需的 Python 环境(还没有搭建好的同学可以参考我的文章「机器学习入坑指南(一):Python 环境搭建」), 接下来,我们将实现简单线性回归模型。 建议大家和我一样使用 Jupyter Notebook,在后面你会更深刻地感受到它的魅力。

1 数据预处理

第一步当然就是上一篇文章讲解的数据预处理啦,代码如下:

# 导入需要的库

import pandas as pd

import numpy as np

import matplotlib.pyplot as plt

# 读取数据

dataset = pd.read_csv('studentscores.csv')

X = dataset.iloc[ : , : 1 ].values

Y = dataset.iloc[ : , 1 ].values

# 分割数据

from sklearn.cross_validation import train_test_split

X_train, X_test, Y_train, Y_test = train_test_split( X, Y, test_size = 1/4, random_state = 0)


示例数据地址:GitHub -
Avik-Jain/100-Days-Of-ML-Code/datasets

对这个过程不熟悉的,参考「机器学习入坑指南(二):数据预处理」

2 用训练集拟合简单线性回归模型

sklearn 库为我们提供了许多常用的数学模型,极大地简化了我们进行数据分析的步骤。我们首先导入线性回归模型:

from sklearn.linear_model import LinearRegression

然后,用训练集的数据去训练(拟合)模型

regressor = LinearRegression()

regressor = regressor.fit(X_train, Y_train)

经过训练后,regressor 便得到了拟合的结果,也就是直线的斜率和截距。

3 预测结果

接下来,我们使用拟合完的模型,根据测试集中的 X 值得到预测的 Y 值,这一步也非常简洁:

Y_pred = regressor.predict(X_test)

4 可视化

为了直观地表达模型拟合的效果,我们对上面的数据分析结果进行可视化。

还记得第一步中我们导入的 matplotlib.pyplot 吗?这是专门提供可视化的一个模块,提供了 Matlab 风格的编程接口(呃,我并不擅长 Matlab)。

这里我们使用它提供的两个方法,一个是 scatter,用来画点,另一个是 plot ,用来画线。当然这只是简单的用法,想进一步了解,参考 gitbooks - Pyplot 教程 。

训练集可视化

# 绘出数据点,用红色表示

plt.scatter(X_train , Y_train, color = 'red')

# 绘出拟合的直线,用蓝色表示

plt.plot(X_train , regressor.predict(X_train), color ='blue')

plt.show()


在 Jupyter Notebook 中输入上面的代码,可视化的结果如图



测试集可视化

同理,可视化测试集,输入以下代码

plt.scatter(X_test , Y_test, color = 'red')

plt.plot(X_test , regressor.predict(X_test), color ='blue')

plt.show()


结果如图



注意虽然绘制直线时使用的参数不一样,但直线是同一条直线,只是选取了不同的点。可以看出,预测的结果与实际的结果具有一定的一致性。

简单线性回归适用于使用一元特征来预测数值的情形。在下一篇文章里,我们将讨论多元线性回归。

————————————————

版权声明:本文为CSDN博主「Evan-Nightly」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明。

原文链接:
https://blog.csdn.net/Neuf_Soleil/article/details/81675190

相关推荐

黄道十二宫杀手密码51年后被破解,来自两位程序员和数学家合作

杨净边策发自凹非寺量子位报道|公众号QbitAI黄道十二宫杀手(ZodiacKiller)可能是世界上最知名的高智商连环杀手,52年来从未被抓获。他的事迹已被改编成了多部好莱坞电影。△...

深入剖析MediaCodec解码器的基本原理及使用「建议新手收藏」

一,MediaCodec工作原理MediaCodec类Android提供的用于访问低层多媒体编/解码器接口,它是Android低层多媒体架构的一部分,通常与MediaExtractor、MediaMu...

Retrofit WebService 实践

前言作为Android开发,平时和后端聊得最多的除了喝酒就是接口。常用语:Restful和WebService,前者现在聊得多,后者以前聊得多。默认含义分别为:Restful:HTTP协议...

建议收藏!175部4K UHD版本经典高分电影洗版参考目录(2015之前)

本内容来源于@什么值得买APP,观点仅代表作者本人|作者:1L789近两年很多经典高分老电影陆续开始重制成4KUHD版本,虽然我早已将这些电影的BD蓝光版收入,但纠结一番后还是花了不少时间将其全部...

2 个月的面试亲身经历告诉大家,如何进入 BAT 等大厂?

这篇文章主要是从项目来讲的,所以,从以下几个方面展开。怎么介绍项目?怎么介绍项目难点与亮点?你负责的模块?怎么让面试官满意?怎么介绍项目?我在刚刚开始面试的时候,也遇到了这个问题,也是我第一个思考的问...

详解Android官推Kotlin-First的图片加载库

前言Coil是一个非常年轻的图片加载库,在2020年10月22日才发布了1.0.0版本,但却受到了Android官方的推广,在AndroidDevelopersBackst...

webview 渲染机制:硬件加速方式渲染的Android Web

webview渲染是什么?webview渲染是用于展现web页面的控件;webview可以内嵌在移动端,实现前端的混合式开发,大多数混合式开发框架都是基于webview模式进行二次开发的w...

因为我对Handler的了解,居然直接给我加了5K

1Handler是什么?android提供的线程切换工具类。主要的作用是通过handler实现从子线程切换回主线程进行ui刷新操作。1.1为什么Handler能实现线程切换?在创建Handler的...

「经典总结」一个View,从无到有会走的三个流程,你知道吗?

前言一个View,从无到有会走三个流程,也就是老生常谈的measure,layout,draw三流程我们都知道Android视图是由一层一层构成的层级结构,直白点说,就是父View包含子View而子V...

这些垃圾代码是谁写的?哦,原来小丑竟是我自己

程序员是最喜欢自嘲、自黑的群体之一,比如他们常常称自己是“码农”、“程序猿”,再比如他们的工作明明是写代码、修Bug,也有人调侃说:“明明我们是修代码、写Bug!”本文整理了一些程序员“修代码、写...

手把手教你爬取天堂网1920*1080大图片(批量下载)——理论篇

/1前言/平时我们要下载图片,要要一个一个点击下载是不是觉得很麻烦?那有没有更加简便的方法呢?答案是肯定的,这里我们以天堂网为例,批量下载天堂网的图片。/2项目准备工作/首先我们第一步我们要安装...

音视频开发需要你懂得 ffmpeg 开源库的编码原理

引言音视频开发需要你懂得音视频中一些基本概念,针对编解码而言,我们必须提前懂得编解码器的一些特性,码流的结构,码流中一些重要信息如sps,pps,vps,startcode以及基本的工作原理,...

「8年老 Android 开发」最全最新 Android 面试题系列全家桶(带答案)

下面跟大家分享的这些面试题都是互联网大厂真实流出的面试内容,每个问题都附带完整详细的答案,不像网上的那些资料三教九流有的甚至还没答案,这些面试题我也是经过日积月累才整理出来的精品资料。这些面试题主要是...

手把手教你爬取天堂网1920*1080大图片(批量下载)——实战篇

/1前言/上篇文章手把手教你爬取天堂网1920*1080大图片(批量下载)——理论篇我们谈及了天堂网站图片抓取的理论,这篇文章将针对上篇文章的未尽事宜进行完善,完成图片的批量抓取。/2图片网址解...

PHP 8.1.9 更新发布

CLI:修复了内置服务器通过PHP_CLI_server_WORKERS环境变量的潜在溢出。修正了GH-8952(不再可能有意关闭std句柄)。Core:修复了GH-8923的错误(Windows上的...