百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

Oracle 创建磁盘组报错ORA-15137的问题分析与解决思路

moboyou 2025-03-14 16:29 21 浏览

ASM扩容本来是件很简单的事,当ASM磁盘准备好之后,直接一条命令就会添加上。但是也会有异常情况,最近就碰到Oracle 19c在扩容时报错的故障,供大家参考。

集群处于ROLLING PATCH模式

背景

某ERP数据库采用Oracle 19c RAC集群,部署架构为传统架构即两台计算节点外挂集中存储。ASM的DATA磁盘组空闲较小需扩容,执行对DATA磁盘组的扩容操作,但报错失败。

报错ORA-15137。这个报错还没见过。我们通过完整的分析过程来展现分析思路。

收集信息

1、查看ASM磁盘组现有状态

通过命令查询,ASM的DATA磁盘组用于存放数据文件;ARCH磁盘组用于存放归档文件。

其中DATA磁盘组总量2TB,目前空闲可用约300GB;ARCH磁盘组总量1TB,目前空闲可用约700GB。

[root@erp1 ~]# su - gridLast login: Fri Jan 15 15:37:01 CST 2021
[grid@erp1 ~]$ asmcmd
ASMCMD> lsdg
State    Type    Rebal  Sector  Logical_Sector  Block       AU  Total_MB  Free_MB  Req_mir_free_MB  Usable_file_MB  Offline_disks  Voting_files  Name
MOUNTED  EXTERN  N         512             512   4096  1048576   1048576   716705                0          716705              0             N  ARCH/
MOUNTED  NORMAL  N         512             512   4096  4194304     15360    14388             5120            4634              0             Y  CRS/
MOUNTED  EXTERN  N         512             512   4096  1048576   2097152   323132                0          323132              0             N  DATA/
ASMCMD>

2、查看磁盘(权限和属组)

①通过lsblk命令查询sdf、sdg、sdh、sdi,均为1TB磁盘;

②通过scsi_id命令查询磁盘ID;

③通过查看
99-oracle-asmdevices.rules文件。在1月14日进行了修改,将
3604fe8d100d5d230b888210a00000038磁盘绑定了别名asm-data03;

④在/dev目录下查看绑定状态正确无误。

[root@erp1 ~]# lsblk
NAME            MAJ:MIN RM   SIZE RO TYPE MOUNTPOINT
sda               8:0    0 558.7G  0 disk
├─sda1            8:1    0     1G  0 part /boot
└─sda2            8:2    0 557.7G  0 part
  ├─centos-root 253:0    0 493.7G  0 lvm  /
  └─centos-swap 253:1    0    64G  0 lvm  [SWAP]
sdb               8:16   0   5.5T  0 disk
└─sdb1            8:17   0     5T  0 part /backup
sdc               8:32   0     5G  0 disk
sdd               8:48   0     5G  0 disk
sde               8:64   0     5G  0 disk
sdf               8:80   0     1T  0 disk
sdg               8:96   0     1T  0 disk
sdh               8:112  0     1T  0 disk
sdi               8:128  0     1T  0 disk
up-0            252:0    0     5G  0 disk
up-1            252:1    0     5G  0 disk
up-2            252:2    0     5G  0 disk
up-3            252:3    0     1T  0 disk
up-4            252:4    0     1T  0 disk
up-5            252:5    0     1T  0 disk
up-6            252:6    0     5G  0 disk
up-7            252:7    0     5G  0 disk
loop0             7:0    0   4.3G  0 loop /media
up-10           252:10   0     1T  0 disk
up-12           252:12   0     5G  0 disk
up-13           252:13   0     5G  0 disk
up-16           252:16   0     1T  0 disk
up-20           252:20   0     5G  0 disk
up-21           252:21   0     1T  0 disk
up-23           252:23   0     1T  0 disk
up-24           252:24   0     1T  0 disk
up-25           252:25   0     1T  0 disk
up-26           252:26   0     1T  0 disk
[root@erp1 ~]#
[root@erp1 dev]# for i in `cat /proc/partitions|awk '{print $4}'|grep sd`;do echo "###$i: `/usr/lib/udev/scsi_id -g -u /dev/$i`";done
###sda: 3600508b1001cda76417cf02db9743e70
###sda1: 3600508b1001cda76417cf02db9743e70
###sda2: 3600508b1001cda76417cf02db9743e70
###sdb: 3600508b1001c7a0f06f5b4a9bf1cb976
###sdb1: 3600508b1001c7a0f06f5b4a9bf1cb976
###sdc: 3604fe8d100d5d230c0ebe3c90000001d
###sdd: 3604fe8d100d5d230c0ebe3f20000001e
###sde: 3604fe8d100d5d230c0ebe41c0000001f
###sdf: 3604fe8d100d5d230bc5ea3a50000001
a###sdg: 3604fe8d100d5d230bc5ea3ce0000001b
###sdh: 3604fe8d100d5d230bc5f19f80000001c
###sdi: 3604fe8d100d5d230b888210a00000038
[root@erp1 udev]# cd rules.d/
[root@erp1 rules.d]# l
ltotal 16-rw-------. 1 root root  211 Jun 24  2020 56-nxup.rules
-rw-r--r--. 1 root root 1390 Jan 14 09:21 99-oracle-asmdevices.rules
-rw-r-----  1 root root 1653 Jun 30  2020 99-oracle-asmdevices.rules.old.bak
-rw-------. 1 root root  571 Jun 24  2020 99-ultrapath.rules
[root@erp1 rules.d]# cat 99-oracle-asmdevices.rules
KERNEL=="sd*", SUBSYSTEM=="block", PROGRAM=="/usr/lib/udev/scsi_id -g -u -d $devnode", RESULT=="3604fe8d100d5d230c0ebe3c90000001d", SYMLINK+="asm-ocr01", OWNER="grid", GROUP="asmadmin", MODE="0660"
KERNEL=="sd*", SUBSYSTEM=="block", PROGRAM=="/usr/lib/udev/scsi_id -g -u -d $devnode", RESULT=="3604fe8d100d5d230c0ebe3f20000001e", SYMLINK+="asm-ocr02", OWNER="grid", GROUP="asmadmin", MODE="0660"
KERNEL=="sd*", SUBSYSTEM=="block", PROGRAM=="/usr/lib/udev/scsi_id -g -u -d $devnode", RESULT=="3604fe8d100d5d230c0ebe41c0000001f", SYMLINK+="asm-ocr03", OWNER="grid", GROUP="asmadmin", MODE="0660"
KERNEL=="sd*", SUBSYSTEM=="block", PROGRAM=="/usr/lib/udev/scsi_id -g -u -d $devnode", RESULT=="3604fe8d100d5d230bc5ea3a50000001a", SYMLINK+="asm-data01", OWNER="grid", GROUP="asmadmin", MODE="0660"
KERNEL=="sd*", SUBSYSTEM=="block", PROGRAM=="/usr/lib/udev/scsi_id -g -u -d $devnode", RESULT=="3604fe8d100d5d230bc5ea3ce0000001b", SYMLINK+="asm-data02", OWNER="grid", GROUP="asmadmin", MODE="0660"
KERNEL=="sd*", SUBSYSTEM=="block", PROGRAM=="/usr/lib/udev/scsi_id -g -u -d $devnode", RESULT=="3604fe8d100d5d230bc5f19f80000001c", SYMLINK+="asm-arch01", OWNER="grid", GROUP="asmadmin", MODE="0660"
KERNEL=="sd*", SUBSYSTEM=="block", PROGRAM=="/usr/lib/udev/scsi_id -g -u -d $devnode", RESULT=="3604fe8d100d5d230b888210a00000038", SYMLINK+="asm-data03", OWNER="grid", GROUP="asmadmin", MODE="0660"

补充:

验证属组权限的,还有一个更快捷的方法——kfod。当我们创建磁盘组的时候,Oracle就是调用kfod命令来发现磁盘的,如果能够被kfod识别,那这块盘就能够被Oracle正确识别:

常用验证命令:

kfod status=true disks=all op=disks

3、查看ASM alert日志,是否还有更多信息:

和前台界面报错一样,ORA-15137,再没有更多信息。

现在就是新加的这块盘没有问题,不管是OS,还是Oracle,都能够正常识别这块盘。按理说是可以正常扩容成功的,但是ASM alert实例就是添加报错。

MOS

现在只有查询官方文档了。看有没有蛛丝马迹。

通过报错关键词查询(ORA-15137: The ASM cluster is in rolling patch state.)。

匹配文档: [OCI] Scale-up Failed in DBCS With ORA-15032: not all alterations performed, ORA-15137: The ASM cluster is in rolling patch state (Doc ID 2681040.1)
为两台计算节点补丁不一致,list of patches在计算节点1缺少一个, patch level值不一致。

1节点:

[grid@erp1 trace]$ /u01/app/19.3.0/grid/bin/kfod op=patches
---------------
List of Patches
===============
30869156
30869304
30894985
30898856
[grid@erp1 trace]$ /u01/app/19.3.0/grid/bin/kfod op=PATCHLVL
-------------------
Current Patch level
===================
3633918477
[grid@erp1 trace]$ /u01/app/19.3.0/grid/bin/crsctl query crs softwarepatch
Oracle Clusterware patch level on node erp1 is [3633918477].
[grid@erp1 trace]$ /u01/app/19.3.0/grid/bin/crsctl query crs activeversion -f
Oracle Clusterware active version on the cluster is [19.0.0.0.0]. The cluster upgrade state is [ROLLING PATCH]. The cluster active patch level is [724960844].
[grid@erp1 trace]$ /u01/app/19.3.0/grid/bin/asmcmd showclusterstate
In Rolling Patch
[grid@erp1 trace]$

2节点:

[grid@erp2 trace]$ /u01/app/19.3.0/grid/bin/kfod op=patches
---------------
List of Patches
===============
29517242
30869156
30869304
30894985
30898856
[grid@erp2 trace]$ /u01/app/19.3.0/grid/bin/kfod op=PATCHLVL
-------------------
Current Patch level
===================
1019803962
[grid@erp2 trace]$ /u01/app/19.3.0/grid/bin/crsctl query crs softwarepatch
Oracle Clusterware patch level on node erp2 is [1019803962].
[grid@erp2 trace]$ /u01/app/19.3.0/grid/bin/crsctl query crs activeversion -f
Oracle Clusterware active version on the cluster is [19.0.0.0.0]. The cluster upgrade state is [ROLLING PATCH]. The cluster active patch level is [724960844].
[grid@erp2 trace]$ /u01/app/19.3.0/grid/bin/asmcmd showclusterstate
In Rolling Patch

上述的state is [ROLLING PATCH],一般显示为state is [NORMAL]。此处已经异常。

可以看出两点:

  • 集群处于ROLLING PATCH模式;
  • 对比发现,crs softwarepatch补丁信息不一致,而且kfod工具的补丁,2节点比1节点多一个。

看起来是由于2个节点的补丁不一致,导致集群处于ROLLING PATCH模式。那为什么会有补丁信息不一样的情况?

因为我们打补丁的时候,是通过opatchauto自动打的,而且是2个节点一起打的。经询问,打补丁的过程没有报错。这个就比较奇怪了。打算提个sr咨询下原厂,因为未来还要大批量的打补丁,这将是个隐患。

补充

这种查看补丁的方式还是第一次用,以前常用的都是opatch lspatches和opatch lsinventory来查看节点的补丁信息,如下:

对比发现:两节点安装的RU是一致的。所以在此处,此方法查看补丁的方法是行不通的。

小结:通过命令和日志查询,发现在1月14日早9时,进行了udev绑定状态正常,进行了DATA磁盘组添加磁盘,报错失败。经过搜索查询,疑似为两台计算节点补丁不一致造成。目前数据库使用状态正常,管控应用使用状态正常。

解决

以下所有的操作都是在多余的补丁的那个节点操作的,即2节点操作:

1、停止2节点数据库:shutdown immediate

2、./rootcrs.sh -prepatch

3、 ./patchgen commit -rb 29757256 (29757256是节点二多余的那个补丁)

4、./rootcrs.sh -postpatch

执行完第三步会报错,按照MOS文档 2348013.1 处理

5、./rootcrs.sh -prepatch

6、./rootcrs.sh -postpatch

7、ASMCMD进去,showclusterstate,再检查patch状态,从rolling变为normal

至此,添加ASM磁盘正常。

问题原因

本次故障是因为安装补丁的时候,由于未知原因,导致kfod这个工具的补丁不一致,集群处于ROLLING PATCH模式,识别ASM磁盘都没有问题,但是会导致ASM扩容失败。

手动安装补丁,没有执行rootcrs.sh的脚本

今天在测试环境创建磁盘组时报错了,虽然不知道问题是怎样产生的,但是最后解决了,特此记录一下。

问题现象

create diskgroup xxxxx;
ORA-15018: Diskgroup can not be created
ORA-15137: cluster in rolling patch

问题原因

猜测是因为打19.4.2的补丁时不是用opatchauto打的,并且打的时候没有跑rootcrs.sh的脚本。

问题解决

如果下面命令查询2个节点命令不一致的话可以用下面的方法解决,可惜我的2个节点一致这个方法不行:

crsctl query crs softwarepatch
crsctl stop rollingpatch

2个节点分别跑rootcrs.sh的脚本,问题得到解决:

/crs/install/rootcrs.sh -prepatch
/rdbms/install/rootadd_rdbms.sh

If this is an Oracle Restart Home, as the root user execute:

/crs/install/rootcrs.sh -postpatch

参考:

[OCI] Scale-up Failed in DBCS With ORA-15032: not all alterations performed, ORA-15137: The ASM cluster is in rolling patch state (Doc ID 2681040.1)

Patching 12.2.0.1 Grid Infrastructure gives error CRS-6706: Oracle Clusterware Release Patch Level (‘748994161’) Does Not Match Software Patch Level (Doc ID 2348013.1)

墨天轮原文链接:
https://www.modb.pro/db/101954?sjhy(复制到浏览器或者点击
oracle 创建磁盘组报错 ORA-15137 - 墨天轮立即查看)

关于作者

樊卓卓,云和恩墨西区交付团队技术顾问。超过7年的Oracle DBA经验,服务于运营商、电力、银行、国税、制造、广电等行业,拥有PGCA、PGCE、OBCA、OBCP多项认证,擅长Oracle数据库升级迁移、备份恢复、故障诊断。

相关推荐

声学EI要完稿?十步速写法

【推荐会议】国际声学与振动会议(ICAV)会议号:CFP23112A截稿时间:2025年4月20日召开时间/地点:2025年8月15-17日·新加坡论文集上线:会后3个月提交EiComp...

结构力学!EI会议图表规范秘籍

推荐会议:国际结构与材料工程进展大会(ISME2026)会议编号:EI#73521截稿时间:2026年3月10日召开时间/地点:2026年8月15-17日·德国柏林论文集上线:会后4...

傅里叶级数物理意义的直观理解:利用傅里叶级数逼近方波信号

上篇文章将向大家介绍频谱的概念,对傅里叶级数、傅里叶积分、傅里叶变换进行了数学的推导,并解释了它们各自的物理意义。推导过程见我的上一篇文章:频谱分析——频谱概念(傅里叶变换、级数、积分及物理意义)如下...

通过对航空发动机整机振动进行分析,有何控制方法?

前言针对航空发动机整机振动问题的复杂性和多样性,以整机振动的振源分析为出发点,总结国内外关于转子系统故障、气流激振、轴承故障、齿轮故障和结构局部共振等引起的整机振动的研究情况。结合航空发动机整机结构动...

MATLIB中使用PCA

主成分分析PCA(PrincipalComponentsAnalysis),奇异值分解SVD(Singularvaluedecomposition)是两种常用的降维方法降维致力于解决三类问题:降维...

数据处理|软件:让科研更简单2

书接上回,继续介绍免费的数据处理软件。eGPS一款热图绘制专用软件,热图就是用颜色代表数字,让数据呈现更直观,对比更明显。优点:小巧方便,基本功能齐全,包括数据转换、聚类分析、颜色调整等等缺点:常见的...

电力系统常用的通讯协议及其在Speedgoat系统中的实现

在电力系统中,IEC61850协议、DNP3协议、ModbusTCP广泛应用于远程终端设备(RTU)、智能电子设备(IED)交互以及监控和数据采集(SCADA)系统。一、IEC61850协议IE...

电子工程师的常用仿真软件

不知道从事电子行业的工程师,有没有使用模拟仿真工具,仿真软件网上又有很多,初学者,可能只知道Multisim和Proteus。一般Multisim适合在学习模拟电路和电路分析原理课程时使用,便于理解电...

技术论文|异结构混沌系统的组合同步控制及电路实现

欢迎引用[1]李贤丽,马赛,樊争先,王壮,马文峥,于婷婷.异结构混沌系统的组合同步控制及电路实现[J].自动化与仪器仪表,2022,No.276(10):80-84.DOI:10.14016/j.cn...

现场︱某110KV主变事故过程仿真分析

三峡电力职业学院、河南省电力公司洛阳供电公司的研究人员李莉、任幼逢、徐金雄、王磊,在2016年第6期《电气技术》杂志上撰文,针对某110KV变电站主变差动保护跳闸事故,结合事故相关检测数据,通过MAT...

光伏发电系统篇:单级式并网系统实时仿真

在全球积极推动清洁能源转型的大背景下,光伏发电作为重要的可再生能源利用方式,得到了广泛关注和迅猛发展。目前常用的光伏并网及光伏电站主要拓扑结构有单级式和双级式。相较于传统的多级式系统,单级式光伏发电并...

光伏发电系统篇:三电平并网逆变器实时仿真

一、三电平并网逆变器在能源转型加速的当下,分布式能源接入电网需求大增。三电平并网逆变器凭借低谐波、高功率密度等优势,有效提升电能转换效率,于新能源并网发电中担当关键角色。常见的三电平电路拓扑结构包括二...

自制3.5KW大功率逆变器,很简单,看过这个电路原理就懂了

前言拿下8000元奖金的项目,是什么水平?本项目经过联合湖南科技大学光伏逆变以及电力电子研究生团队共同探讨方案。项目成本:1200元,获得奖金:8000元!参加赛事:立创开源硬件平台_星火计划·外包赛...

圈内分享:电容式加速度计接口电路非线性建模与仿真设计

摘要:非线性是Sigma-Delta(ΣΔ)加速度计系统的关键指标之一。基于一个五阶ΣΔ加速度计结构,分析了其主要的非线性模块,在MATLAB中建立了整体结构的行为级模型,并利用根轨迹法进行了稳...

基于Matlab/Simulink建立一种Thevenin/RC电池模块仿真模型

本文以锂电池数学模型为基础,在Matlab/Simulink的仿真系统中,建立了一种Thevenin/RC电池模块仿真模型,通过实际工况试验,测试精度在允许误差范围内,为电池SOC/SOH研究提供了极...