文档库 最新最全的文档下载
当前位置:文档库 › 教你更换VNX5100的控制器SP

教你更换VNX5100的控制器SP

教你更换VNX5100的控制器SP
教你更换VNX5100的控制器SP

手把手教你更换VNX5100的控制器SP

更换控制器SP相对于其他常见冗余部件,如硬盘,电源等来说,还是有点技术难度的。搞不好,就把系统搞down了。下面是一个标准的SP更换流程,供朋友们参考。

从大的方面来讲,更换SP主要由下面的6个步骤组成:

1.找到有故障的SP。不要以为这个是吹毛求疵,历史上发生过很多的悲剧就是工程师直接

把好的那个SP给断电了,然后业务就停了;

2.关闭故障SP的电源;

3.更换SP

?线缆标记,然后拆下和该SP相连的各种线缆或者电源线;

?物理上卸下该SP;

?把一些非SP部件从故障的SP上转移到新更换的SP上。如:

1)电源

2)内存模块

3)IO模块,如果没有IO模块,要把IP挡板转移过来.

?将新的SP安装到存储系统机柜中;

?根据线缆标记,重新连接线缆.

4.检查SP的各种LED灯指示;

5.检查系统运行状态。

6.再次检查系统硬件状态。

好了,下面详细介绍一下上述6个步骤的详细操作步骤:

1.检查系统故障部件

检查系统硬件故障最简单的办法就是使用Unisphere图形化工具,这个怎么使用就不介绍了。在WEB界面中System > Hardware > Storage Hardware。如果有硬件故障,在这里就可以看到故障报警。

建议使用USM来做一个系统的健康检查,确认故障点并看看是否还有其他故障。USM是Windows的一个GUI管理工具,这里不在详细介绍了。

2.关闭SP电源

在给SP下电前,要检查和执行failover以及LUN的trespass。确保业务顺利切换到partner的SP上,否则会引起DU,也就是业务不可用。

不同的OE版本,在对SP下电前的操作稍有不同,所以,在下电前的第一步是确定当前系统运行的OE版本。

使用Navisphere CLI来确定当前运行的VNX OE版本:

naviseccli -h -user -password -

scope 0 getagent

如果OE版本是R31.008或者更低的版本,需要完成下面的两个工作:

1)将系统的write cache disable

首先显示和确认一下当前Write cache的状态:

naviseccli -h -user -password -

scope 0 getcache

然后disable write cache:

naviseccli -h -user -password -

scope 0 setcache -wsz 0 -wc 0

2)关闭SP电源

关闭有故障SP部件的电源,这里不是直接把电源线,而是通过命令行来关闭。该命

令一定是从对端的SP来发出。如你要关闭SP A的电源,则登录到SP B来运行CLI

名来来关闭A的电源。从下面的名来也可以看出来,shutdown的是peer的SP。

naviseccli -h -user -

password -scope 0 shutdownpeerSP

为确保电源已经关闭,可以使用ping命令来查看一下是否还能ping通。

如果OE版本是R31.011 或者以上版本,不需要disable write chache,直接关闭SP的电源。

3.更换SP部件

SP A和SP B的命名规则如下,从机柜后面来看,位于左边的SP B,右边的是SP A,如果从机柜前面来看,刚好相反,左边是SP A,右边是SP B,这个不要搞错呀,拔错SP麻烦就大了。

下面是详细步骤,供参考:

1)对所有的线缆做标签,这个很重要,不要以为你脑子好使,能记住。和SP相连的线

缆有电源线,SPS的传感器线,一些管理使用的LAN或者和后端磁盘相连的SAS线以及前端端口连线等。

2)依次把上述线缆从SP上拆下来。

3)从SP从DPE中拆下来

如下图所示:

最下面有两个桔色的把手,如上图所示的方向打开该把手。然后向外拉动,SP就可以从DPE中抽出来了。

4)交换部件

将故障SP上的一些部件转移到新的要更换的SP上,主要有电源、内存条和一些IO 模块。

电源的转移是比较容易的,如下图所示,从故障SP上拆下电源模块。搬动桔色把手,然后抽出电源。

转移内存条一样,如下图拆下内存条:

同样,我们把刚拆下来的电源和内存条安装到新的SP上,安装方法就不在详细叙述,很简单的。

下面还需要把IO模块转移到新的SP上,同样,先从故障SP上拆下IO模块,如下图所示:

至此,已经转移完毕了所有其他部件。然后,将SP插入到存储系统中,并按照以前的线缆标记连线。

4.检查SP的各种指示灯

一般SP的reboot需要10分钟左右的时间,这时候SP上的故障指示灯和电源指示灯会显示各种状态,请仔细观察,不要着急,等SP的故障指示灯熄灭以及电源指示灯常亮后系统才进入正常状态。下图是SP的指示灯位置,供参考:

SP成功启动后,系统会trespass会以前的LUN。如果没有自动trespass,需要手工干预一下。

5.检查系统工作状态

对于OE版本在R31.008以下的系统,要首先enable write cache。对于高于这个版本的系统,不需要这个步骤。

进入Unisphere,再次检查系统工作状体,检查硬件状态。

6.再次检查系统健康状态

使用USM运行Health check wizard,对系统进行一次彻底检查。

相关文档