当前位置：文档库 › PM-handbook9k-V2.1.2

PM-handbook9k-V2.1.2

HP9000预防性维护

工作文档

Version 2.1

(Internal Use Only)

2004年11月15日

1.PM过程中注意事项 (4)

工程师做PM时遇到故障如何处理? (4)

遇到PM 联系人变化 (4)

预防性报告的使用方法 (4)

2.火线－零线电压(198~232V) (4)

3.零线－地线电压 ( 应<1V, 最高不超过3V ) (5)

4.温度 ( 20 ~ 25 ℃ ) (5)

5.湿度 ( 40 ~ 60 % ) (5)

6.机房环境(电源,空调...)近期内有没有较大变动. (5)

7.指示灯状态 (5)

1. Rp24xx(A-Class) 和Rp54xx(L-Class) (5)

2. N-Class (11)

3. Rp7410 和Rp8400 (13)

4. Superdome (15)

8.分区状态(仅限于Superdom,rp8400等系列) (16)

9.处理器(mstm) (18)

10.内存(mstm/dmesg) (19)

11.磁盘(ioscan –fnCdisk) (19)

12.I/O (ioscan –nf) (20)

13.网络(#ioscan –nfClan,#lanscan,#ifconfig lanX) (22)

14.磁带机 (23)

15.DVD,CD-ROM (23)

16.机器的出风口和入风口是否需要清洁 (24)

17.防尘网是否已被更换(V 机，T 机等) (24)

18.GSP/MP/SP 日志 (24)

19.dmesg 输出 (25)

20.系统启动日志 (26)

21.系统运行日志 (27)

22.系统shutdown 日志 (27)

23.文件系统 (27)

24.系统近期有无HPMC (27)

25.系统近期有无Core Dump (28)

26.Dump 区的配置是否合理 (28)

27.集群的运行状态 (29)

28.集群的日志 (31)

29.锁盘检查 (32)

30.XP 另见XP预防性维护报告 (33)

31. EVA (33)

32. VA (35)

33.FC60 (51)

34.AutoRAID (62)

35.带库 (66)

36.PDC 固件（Firmware）版本 & GSP(MP)固件(Firmware) 版本 (71)

37.HP-UX 操作系统版本 (73)

38.远程 Modem是否安装并测试成功 (73)

39.ISEE是否安装 (73)

40.Patch Bundle, Online Diagnostics, Ignite-UX 是否安装 (73)

41.RC Tools 是否安装 (73)

42.记录主要部件的相关信息 (74)

43.#vgcfgbackup vgname 做vg配置信息的备份 (76)

44.询问客户有否在系统变更后或每半年做ignite 系统备份 (76)

45.询问客户数据库及应用、应用数据是否定期有效进行备份 (76)

46.询问客户介质(磁带)是否标注清楚 (77)

47.询问客户备份介质是否被妥善保存 (77)

48.询问客户磁带机是否按要求定期清洁 (77)

49.系统总体性能评估 (78)

50.CPU 平均使用率( #sar ) (78)

51.IO 所占用的CPU使用率 (79)

52.空闲的物理内存( #top ) (79)

53.交换区使用情况( #swapinfo –atm) (79)

54.此次预防性维护的总结及建议 (80)

55.客户对预防性维护的意见及建议 (80)

56.签名 (80)

预防性维护是惠普公司为客户提供的专业服务的一部分。相对于被动式的维修服务，预防性维护提供对客户的计算环境主动的预防性的检查。通过预见及预防系统可能发生的硬件故障或严重的性能瓶颈等，可以很大程度地提高客户计算环境的可用性。

工程师做PM时遇到故障如何处理?

如果是属于硬件或者操作系统方面的故障，告知客户，请客户按惠普报修流程拨打800-810-0668响应中心热线报修。如可能的话也可以帮客户报修，并协助响应中心工程师查找故障。

遇到PM 联系人变化

发Mail 通知PM dispatcher (贾婷婷，010-********，

candy.jia@https://www.wendangku.net/doc/6b17336539.html,)更改联系人资料。

预防性报告的使用方法

在到达用户现场前，打印预防性维护报告，一式两份。在完成维护后，签名并留一份拷贝给客户，另一份保存在Customer File中，与现在的方法相同。

以下对维护中的具体内容逐条进行解释：

使用万用表(Multimeters) 测量火线-地线的电压。

我们只测量惠普机柜内的电源插座（16A/60A PDU）或标准的插座。

1.PM过程中注意事项

2.火线－零线电压(198~232V)

不要在客户的配电柜（配电箱）上直接测量电压，因为大多数配电柜（配电箱）上都有输出电压的显示；同时在配电柜（配电箱）上直接测量电压有可能对自身造成危险，并且有可能造成电源短路。

使用万用表(Multimeters) 测量零线-地线的电压。

如果零线-地线的电压 > 3V，有可能是由于客户机房的保护地线接地不好造成的，最好请客户确认保护地线和大地的电阻是否 <= 1欧姆。

惠普服务器最佳的运行环境温度是22℃。

惠普服务器前后需预留一定空间（>1米），以便于设备进出风；否则有可能造成设备内部温度过高，影响设备的稳定性及使用寿命。

最佳环境湿度是55%。

如果机房环境过于潮湿，可建议客户使用抽湿机；如果环境过于干燥，可考虑使用加湿机增加机房的湿度。

伴随着惠普服务器性能的不断提高, 设备对机房环境的要求也越来越高(电源电压, 电源接地, 温湿度,电磁干扰…);

只有一个稳定的机房环境才能保障设备的稳定运行。机房环境的任何较大变动都有可能对惠普服务器,存储器的稳定运行造成影响；甚至有可能导致设备频繁发生故障。

每次对机房环境进行较大变动后，都需要对环境进行重新严格的评估，以确保机房环境满足要求，从而保障设备的稳定健康运行。

以下分别详细说明Rp24xx(A-Class), Rp54xx(L-class), N-class, Rp7410,Rp8400和Superdome 前面板指示灯的具体含义。

1.Rp24xx(A-Class) 和Rp54xx(L-Class)

服务器Rp24xx和Rp54xx前面板都有5个LED指示灯，分别是Run, Attn., Fault, Remote 和Power 灯:

Front Panel LED Table

2.N-Class

服务器N-Class 的前面板有7个LED指示灯, 分别是Run, Attn., Fault, Disk A, Disk B, Remote 和Power:

Power

3.Rp7410 和Rp8400

服务器Rp7410和Rp8400 前面板有7个LED指示灯,分别是Run, Attention, Fault, Remote, MP Present(Rp7410)/SP Present(Rp8400), Standby Power 和Power.

Rp7410

Rp8400

4.Superdome

服务器Superdome 的前面板有5个LED灯，从上到下依次为

+5v HKP(HouseKeeping Power), +48v Power, Sub Present, Remote, Fault:

分区状态的检查可用命令GSP(MP):CM> PS来实现。

以Superdome 为例：

GSP:CM> PS

Cabinet Number? 0

+-----+-----+----------------+-----------------------------------+ | | | Core IO | | | | IO Bay | IO Bay | IO Bay | IO Bay | | UGUY | CELL | 0 | 1 | 2 | 3 |

| CLU | PM |0 1 2 3 4 5 6 7 |0 1 2 3 |0 1 2 3 |0 1 2 3 |0 1 2 3 |

+-----+-----+----------------+--------+--------+--------+--------+

| x | x | x x x | x x | | | |

+-----+-----+----------------+--------+--------+--------+--------+

You may display detailed HW status of the following items.

1 - Cabinet

2 - Cell

3 - Core IO

4 - Service Processor

Select item or q to quit: 1

HW status for cabinet 1: FAILURE DETECTED

Power Switch: on; Power: enabled, good;

FanSpeed: Normal; TempState: Normal; Door: closed;

Redundancy State: Fans redundant, BPSs not redundant

+-----+-----+----------------+-----------------------------------+

| | | Core IO |

| UGUY | CELL | 0 | 1 | 2 | 3 |

| CLU | PM |0 1 2 3 4 5 6 7 |0 1 2 3 |0 1 2 3 |0 1 2 3 |0 1 2 3 |

+-----+-----+----------------+--------+--------+--------+--------+ Populated * * * * * * *

Power Enabled * * * * * * *

Powered On * * * * * *

Power Fault *

Main Cabinet IO Bay

BPS Fans Fans

0 1 2 3 4 5 0 1 2 3 0 1 2 3 4

Populated * * * * * * * * * * * * * * *

Failed *

Cabinet type: SuperDome 32; Voltage margin: Nominal; Clock

margin:Nominal

PM3 Firmware Rev 1.0 CLU Firmware Rev 1.2

在上面的例子中，我们要注意观察蓝色字体部分，看主机硬件有没有Failure 或Warning。如果有, 可查看Service Manual 或联系HP响应中心进行故障定位。

在操作系统上还可以用parstatus命令来检查Cell状态，RIO connection等。以下是一个正常输出的例子：

server1:[/] #parstatus

Warning: No action specified. Default behaviour is display all.

[Complex]

Complex Name : Complex 1

Complex Capacity

Compute Cabinet (8 cell capable) : 1

Active GSP Location : cabinet 0

Model : 9000/800/SD32000

Serial Number : SGH43501W9

Current Product Number : A5201A

Original Product Number : A5201A

Complex Profile Revision : 1.0

The total number of Partitions Present : 4

[Cabinet]

Cabinet I/O Bulk Power Backplane

Blowers Fans Supplies Power Boards

OK/ OK/ OK/ OK/

Cab Failed/ Failed/ Failed/ Failed/

Num Cabinet Type N Status N Status N Status N Status GSP

=== ============ ========= ========= ========== ============ ======

0 SD32000 4/ 0/ N+ 5/ 0/ ? 6/ 0/ N+ 3/ 0/ N+ active

Notes: N+ = There are one or more spare items (fans/power supplies).

N = The number of items meets but does not exceed the need.

N- = There are insufficient items to meet the need.

? = The adequacy of the cooling system/power supplies is unknown.

[Cell]

CPU Memory Use

OK/ (GB) Core On Hardware Actual Deconf/ OK/ Cell Next Par Location Usage Max Deconf Connected To Capable Boot Num ========== ============ ======= ========= =================== ======= ==== === cab0,cell0 active core 4/0/4 8.0/ 0.0 cab0,bay1,chassis3 yes yes 0 cab0,cell1 active core 4/0/4 8.0/ 0.0 cab0,bay1,chassis1 yes yes 2 cab0,cell2 active base 4/0/4 8.0/ 0.0 - no yes 0 cab0,cell3 active base 4/0/4 8.0/ 0.0 - no yes 3 cab0,cell4 active core 4/0/4 8.0/ 0.0 cab0,bay0,chassis1 yes yes 1 cab0,cell5 active core 4/0/4 8.0/ 0.0 cab0,bay0,chassis3 yes yes 3 cab0,cell6 active base 4/0/4 8.0/ 0.0 - no yes 1 cab0,cell7 active base 4/0/4 8.0/ 0.0 - no yes 3

[Chassis]

Core Connected Par

Hardware Location Usage IO To Num

=================== ============ ==== ========== ===

cab0,bay0,chassis0 absent - - -

cab0,bay0,chassis1 active yes cab0,cell4 1

cab0,bay0,chassis2 absent - - -

cab0,bay0,chassis3 active yes cab0,cell5 3

cab0,bay1,chassis0 absent - - -

cab0,bay1,chassis1 active yes cab0,cell1 2

cab0,bay1,chassis2 absent - - -

cab0,bay1,chassis3 active yes cab0,cell0 0

[Partition]

Par # of # of I/O

Num Status Cells Chassis Core cell Partition Name (first 30 chars)

=== ============ ===== ======== ========== ===============================

0 active 2 1 cab0,cell0 Partition 0

1 active

2 1 cab0,cell4 Partition 1

2 active 1 1 cab0,cell1 Partition 2

3 active 3 1 cab0,cell5 Partition 3 server1:[/] #

以root 用户登陆主机：

#mstm

在mstm的硬件列表中，用空格键选中所有的“CPU”，然后在主菜单上选择 [ Tools ] → [ Information ] → [ Run ]

正常情况下，运行的结果应该是“Successful “；如果运行结果不是”

Successful“，可以尝试多运行几次Information。

如果多次运行Information 的结果仍然不是“Successful”, 请联系HP 响应中心进行故障定位。

如果在information命令的输出结果中有LPMC多次出现，则需要进一步检查。可联系响应中心进行诊断。

以root 用户登陆主机：

#dmesg

………

Memory Information:

physical page size = 4096 bytes, logical page size = 4096 bytes

Physical: 2088960 Kbytes, lockable: 1568084 Kbytes, available: 1807632 Kbytes

物理内存大小

#mstm

在mstm的硬件列表中，用空格键选中“MEMORY”，然后在主菜单上选择 [ Tools ] → [ Information ] → [ Run ]

正常情况下，Information 的运行结果应该是“Successful “；如果运行结果不是”Successful“，可以尝试多运行几次Information。

如果多次运行Information 的结果仍然不是“Successful”, 请联系HP 响应中心进行故障定位。如果在information命令的输出结果中有LPMC多

次出现，或是PDT接近FULL,则需要进一步检查。可联系响应中心进行诊

断。

用Logtools可以更详细的看到LPMC的信息，具体方法是：

用空格键highlight内存

在主菜单上选择[Tools]->[Utility]->Run->Logtools->Memory->Report Log-

>View Detail

以root 用户登陆：

#ioscan -fnCdisk | more

Class I H/W Path Driver S/W State H/W Type Description

====================================================================== ==

disk 0 0/0/1/1.2.0 sdisk CLAIMED DEVICE SEAGATE ST39204LC

/dev/dsk/c1t2d0 /dev/rdsk/c1t2d0

disk 1 0/0/2/1.2.0 sdisk CLAIMED DEVICE HP DVD-ROM 305

/dev/dsk/c3t2d0 /dev/rdsk/c3t2d0

disk 2 0/6/0/0.8.0.110.0.0.0 sdisk CLAIMED DEVICE HP A6189B

/dev/dsk/c8t0d0 /dev/rdsk/c8t0d0

disk 3 0/6/0/0.8.0.110.0.0.1 sdisk CLAIMED DEVICE HP A6189B

/dev/dsk/c8t0d1 /dev/rdsk/c8t0d1

disk 4 0/6/0/0.8.0.110.0.0.2 sdisk CLAIMED DEVICE HP A6189B

/dev/dsk/c8t0d2 /dev/rdsk/c8t0d2

disk 5 0/6/0/0.8.0.110.1.0.0 sdisk CLAIMED DEVICE HP A6189B

/dev/dsk/c10t0d0 /dev/rdsk/c10t0d0

disk 6 0/6/0/0.8.0.110.1.0.1 sdisk NO_HW DEVICE HP A6189B

/dev/dsk/c10t0d1 /dev/rdsk/c10t0d1

disk 7 0/6/0/0.8.0.110.1.0.2 sdisk NO_HW DEVICE HP A6189B

/dev/dsk/c10t0d2 /dev/rdsk/c10t0d2

在上面的例子中，磁盘状态是“NO_HW“代表此盘在主机最初启动时是正常的，可被系统正常访问；但现在系统核心已找不到这个物理盘体。

造成此状态的具体原因有可能是：

1.物理磁盘损坏。

2.到这个磁盘的硬件连接通道有问题（SCSI卡，SCSI 线，光纤卡，光纤

线，光纤交换机…）。

3.这个磁盘被在线移掉。

以root 用户登陆：

#ioscan -fn | more

Class I H/W Path Driver S/W State H/W Type Description

============================================================================ root 0 root CLAIMED BUS_NEXUS

ioa 0 0 sba CLAIMED BUS_NEXUS System Bus Adapt

er (582)

ba 0 0/0 lba CLAIMED BUS_NEXUS Local PCI Bus Ad

apter (782)

lan 0 0/0/0/0 btlan CLAIMED INTERFACE HP PCI

10/100Bas