当前位置：文档库 › IBM_P系列小型机日常维护故障定位故障排除手册

IBM_P系列小型机日常维护故障定位故障排除手册

IBM P系列小型机

日常维护/故障定位/故障排除手册1.机房环境及物理检查

1.1. 机房内环境要求

1.1.1.温度与湿度：

最佳工作温度：20-25摄氏度

极限工作温度：10-40摄氏度

湿度: 8-80%(在23摄氏度条件下)

如果不是工作在最佳温度，请注意改善机房环境

1.1.

2.机房要保证清洁.

机房应保持清洁，若空气灰尘过多，很容易造成资源读写错误及磁盘机中磁盘或读写磁头毁损。

1.1.3.电源要求

电压: 要求电压稳定, 尖峰电压会损坏设备

电压范围: 220V +/- 10%, 即200-240V, 50-60Hz

电源功率: 视机器类型和系统配置而定

电源线 : 标准的零, 地, 火三相电, 其中零, 地电压不得超过1.0V.

电源接驳: 用符合电流要求的空气开关或其他设备和主机电源线接驳,保证计算机系统的可靠工作应使用稳压电源和UPS，并建议配备发电机组;对于冗于电源的接入,建议采用两路单独输入.

1.2. 硬件检查

检查服务器、磁阵的安装、电源线、7133和主机接线符合要求。

1.3. 服务器状态检查及其相关命令

1.3.1.外观状态检查：

1. 当服务器处于启动和正常工作状态时，其前面板上的液晶显示屏上应无信息显示。

2. 当液晶显示器上出现带数字和字母的信息时，说明有硬件告警。可以通过查询相关机型的Service Guide查到相应告警原因，情况严重的，则要立即通知IBM技术专家进行问题排查。

1.3.

2.命令状态检查

1、运行lsdev 命令配以各种参数，所列各种设备状态都应为Available。

#lsdev –C –H –S a 列出系统中可用设备。

#lsdev –Cc processor 列出系统中的所有CPU。

#lsdev –Cc memory 列出系统中的所有内存。

#lsdev –Cc disk 列出系统中的所有硬盘。

#lsdev -Cc adapter | grep ent 列出系统中的所有网卡

#lsdev -Cc adapter | grep scsi 列出系统中的所有SCSI卡。

#lsdev -Cc adapter | grep ssa 列出系统中的所有SSA卡。

2、lspv命令

#lspv 显示系统中可用的PV。

#lspv hdiskn 显示hdiskn的具体信息。

#lsdev –Cc pdisk 显示磁盘阵列的硬盘的具体信息。

对SSA硬盘的检测：在对主机进行工作之前可以先把磁盘阵列上电，等主机完全启动后，登录到主机上，运行以下命令“ lsdev –Cc pdisk “,应该可以看到所有SSA硬盘，并且状态应为Available.。

3、 lsattr命令

# lsattr –E –l mem0 列出系统中内存mem0的大小，本项目中内存有4GB。

4 、lsvg命令

#lsvg 列出系统中所有的vg。

#lsvg rootvg 列出rootvg的详细信息。

#lsvg –o 列出激活的vg

5、 oslevel命令

#oslevel 显示操作系统版本信息。

6、 netstat命令

#netstat –in 显示系统中各网卡的配置。可查看网卡的IP配置好了没有。

7、 # diag 命令

通过运行# diag 命令运行硬件诊断程序检测主机内所有硬件，检测结果为“No trouble found ”显示各部分工作正常。

8、使用#diag命令

（选择：Task Selection-> SSA Service Aids）对SSA硬盘链路连接的校验，可以通过SSA 工具里的Link Verification 来检测。如有必要，可以用 Certify Disk运行硬盘诊断部分进行硬盘的表面分析测试，由1% 至100%，检测结果显示主机内置硬盘的所有扇区均读写正常。

9、 lsps –a 查看PAGING SPACE的使用情况

如果使用率超过70%，就需要采取措施。

10、 lsvg –o | lsvg –il | grep –i stale

查看有无stale的lv，如果输入该命令之后有输出结果，就需要采取措施

11、有否发给root用户的错误报告(mail)。

12、检查双机状态

lssrc –g cluster 检查ha三个工作进程是否激活，/usr/sbin/cluster/clstat –a检查双机状态是否up，并检查hacmp.out日志，看是否有异常信息。

13、用vmstat, topas，sar 命令检查系统性能

检查cpu\memoyr\IO ，是否存在性能瓶颈。

14、检查能否顺利进入CDE界面

如果不能进入的话，要检查/etc/hosts表中有否错误的项目。

15、用smitty ssaraid 查看磁盘阵列RAID盘的状态是否是Good。

如果是degrade或其他状态表示RAID盘出现问题了

16、用sysdumpdev –l 查看系统的DUMP设置是否正常。

17、用instfix –ik | grep ML

当前操作系统补丁版本补丁程序(PTF)是否满足稳定运行的需要。一般要求433操作系统补丁要打到10以上，5.1操作系统补丁要打到5以上

18 、使用df –kP查看磁盘空间占用率

请确保以下文件系统的占用率高于80%立即上报：

/ /var /usr /home /tmp /zxindata/zxinbak，其余文件系统的占用率高于95%立即上报

也可以到各文件系统下使用组合命令：find . –size +2048 –o ctime 1 –exec ls –l {} \; 查出大于1M或一天之内修改过的文件。

19、系统性能

内存：svmon、lsps -a

Cpu ：sar

硬盘：iostat

文件系统：filemon

其他命令： vmstat、topas、lvmstat

20、磁带机是否需要清洗

/usr/lpp/diagnostics/bin/utape -cd rmt0 –n

显示结果为磁带机使用的小时数，若大于72小时，则不论磁带机黄灯是否亮都应用清洁带清洗

21、syncd 参数

值：缺省值：60；范围：1 到任何正整数

显示： grep syncd /sbin/rc.boot 或 vi /sbin/rc.boot

更改：更改在下次引导后有效，而且是永久有效。备用方法是使用命令 kill 来终止守护程序

syncd 并用命令 /usr/sbin/syncd interval 从命令行重新启动它。

诊断：当 syncd 正在运行时，文件的 I/O 被阻塞了。

调整：在缺省级别上，这个参数几乎不影响性能。不推荐对这个参数进行更改。为了保持数据完整

性对于 HACMP而使 syncd interval 明显缩小，会导致性能下降。

更改命令为： #vi /sbin/rc.boot

22、检查 errdaemon, srcmstr 是否正常运行

# ps -ef|grep err

# ps -ef|grep src

1.4. 性能监控与调优

通过命令vmstat 1 来观察.

kthr memory page faults cpu

----- ----------- ------------------------ ------------ -----------

r b avm fre re pi po fr sr cy in sy cs us sy id wa

命令解析：vmstat 命令的输出可以反映系统整体运行状况，包括cpu、内存、虚拟页面、系统进程和系统调用情况。

检查CPU是否为瓶颈,分别检查CPU的四项数值和kthr的两项数值.

检查MEM是否为瓶颈,分别检查Memory的两项数值和Page 的六项数值.

命令解析： sar可以用来收集反映系统运行状况，在这里主要是查看CPU的运行状况，CPU是否负载均衡,是否存在分配不均的情况。

通过命令ps gv | more来观察。

PID TTY STAT TIME PGIN SIZE RSS LIM TSIZ TRS %CPU %MEM COMMAND

0 - A 4:20 7 12 14516 xx 0 14504 0.0 5.0 swapper

1 - A 1:33 103 7895

2 79044 32768 25 36 0.0 29.0 /etc/init

命令解析：ps可以用来查看进程的当前状态。在这里通过参数的配搭，可以观察目前正在运行的进程所耗的时间,CPU和memory 量.其中，%CPU表示进程所占用的CPU资源情况，%MEM表示进程所占用的内存情况。主要检查是否有标示为的僵尸进程耗用系统资源，以及informix 数据库的oninit 进程的系统消耗情况。

在机器上用dd命令进行磁盘阵列的写操作校验，与此同时用iostat 1 –d hdiskX观察磁盘。

Disks: % tm_act Kbps tps Kb_read Kb_wrtn

命令解析: iostat可以用来查看系统的 I/O的输入输出情况，在这里主要查看阵列上的硬盘的每秒读写量，同时估算磁盘阵列读写速度HHhHhh

通过命令netstat –a 进行查看。

Active Internet connections (including servers)

Proto Recv-Q Send-Q Local Address Foreign Address (state) 命令解析: netstat可以用来查看系统的网络情况，在这里主要是查看网络客户端连接的情况和开销，检查参数为state，如有死连接，state状态为

fin_wait, 这样耗用系统网络资源，从而导致网络性能下降构成瓶颈。

1.5. 安全工作守则

a.系统定期进行系统备份，系统盘建议镜像。

b.当有系统变更或进行操作系统补丁安装的时候，必须作一次系统备份。

c.在7133和shark发现有硬盘故障的时候，请提醒客户注意当天的数据备份。在更换硬盘的时候，请确认当天数据备份已经完成。

d.在更换敏感的电子元件，时候一定要防静电。

e.在插拔外围设备的时候，请把外围设备下电。

f.在进行主机微码升级时候，请留意微码的完整性。

g.在进行文件删除的时候，请留意当前路径是否正确。

h.在进行文件解压缩的时候，请留意参数和路径。

2.系统日常维护流程

2.1. 系统启动

系统启动正常顺序如下：

首先对外设（磁盘阵列、磁带库等）加电。

待所有外设加电自检完成后，主机加电正常起机。主机加电后,系统进行自检,在液晶显示屏显示”ok”后,才能按白色POWER键起机.

启动主机HACMP，启动后可用命令 tail -f /tmp/hacmp.out 来检查启动情况，在HACMP未完全启动前不要进行下一步。

检查服务器的网络地址，路由表(可用netstat -i , netstat -rn 等)，检查文件系统，逻辑卷(可用 mount , lsvg -o 等)。

检查各项应用是否工作正常。

2.2. 系统关闭

停止HACMP ( smitty clstop)。

查看HACMP的状态，检查服务器的网络地址，路由表(可用netstat -i , netstat -rn 等)，检查文件系统，逻辑卷(可用 mount , lsvg -o 等)。在HACMP未完全停止前不要进行下一步。

关闭主机 (shutdown –F)。重启系统可以使用：shutdown -Fr

如有必要的话，按磁盘阵列前方的白色按钮关闭磁盘阵列。

2.3. 查看系统的错误记录

在系统运行时，一些系统错误会记录在errlog 中，其中有些错误还会在终端上显示。检查错误日志可用以下命令：

#errpt|more 查看系统所有的记录

IDENTIFIER TIMESTAM P T C RESOURCE_NAME DESCRIPTION

E85C5C4C 0426104399 P S CFGLFT SOFTWARE PROGRAM ERROR

2BFA76F6 0426104099 T S SYSPROC SYSTEM SHUTDOWN BY USER 9D4CF6E7 0426104399 T O errdemon ERROR LOGGING TURNED ON 1E2AC07E 0426103999 T O errdemon ERROR LOGGING TURNED OFF 1E5EER4T 0423132999 T O clstrmgr OPERATOR NOTIFICATION 其中

IDENTIFIER 为错误编号，当需要检查详细信息时常会用到。

TIME STAMP 为时间标签，它记录的是出错时间，其格式:月月日日时时分分年年

T 为Type , 它记录的是错误类型

P ：为永久错误，需引起注意

T ：为临时错误。

C 为Class, 它记录的是错误种类，如

H : Hardware

S : Software

O : Errloger command messages

U : undetermined

RESOURCE_NAME 为错误来源

DESCRIPTION 为错误描述

#errpt -aj 查看系统详细记录内容

其中IDENTIFIER为错误编号，如 #errpt -aj 0426104399

#errpt -dH 查看系统所有的硬件出错记录

2.4. 系统与数据备份

有效及时的系统备份是系统管理的非常重要的一环。当系统出现故障时，特别是文件系统被严重损坏或硬盘损坏时，常需要使用系统备份来恢复系统。在以下情况下应做系统备份：

1、新装机。在硬件及系统软件安装完成后，应做系统备份。

2、软件改动。系统软件或应用软件有改动时，应做系统备份。

3、定期备份。对系统进行定期备份，最好每两或三个月做一次备份

备份注意事项：

进行系统备份无须停止业务，业务可以继续进行。

建议客户进行定期的系统备份（使用命令smitty mksysb）。客户也可根据需要利用SMIT对系统的特定的VG或FS进行备份。

smitty mksysb只备份rootvg中mount起来的文件系统，其它文件系统或数据并没有做备份，所以数据备份需要另外完成（建议客户使用TAR格式）

在条件允许的情况下，最好有一盘以上备份带，以防止磁带损坏。

系统备份过程中有时候会提示有些/tmp目录下的文件无法备份，显示如下：Creating list of files to back up...

Backing up 34025 files..............................

1694 of 34025 files (4%)..............................

2733 of 34025 files (8%).........backup: 0511-449 An error occurred accessing ./

tmp/sh34736.1: A file or directory in the path name does not exist.

backup: 0511-449 An error occurred accessing ./tmp/sh34736.2: A file or director

y in the path name does not exist.

backup: 0511-449 An error occurred accessing ./tmp/sh34736.3: A file or director

y in the path name does not exist. .....................

15458 of 34025 files (45%)..............................

31920 of 34025 files (93%)...........

0512-003 mksysb may not have been able to archive some files.

The messages displayed on the Standard Error contained additional

information.

这是正常现象，备份成功。

2.5. 系统恢复

当系统发生比较严重的故障以致采取一般性维护手段不能在短期内恢复原系统，在与客户进行蹉商后，可将最近一次的系统备份带倒回机器内以全面恢复系统到最近一次做备份时的系统环境，然后可将当日的数据备份再倒回系统内。至此，系统可恢复正常运行。此后，客户应当与IBM工程师再进行整个事件的全面分析与回顾，以期找到故障发生的原因，并采取相应措施以杜绝类似事件再次发生。

2.6. DUMP

当系统运行出现软件故障导致系统down机时，机器的液晶显示器会出现888 102 xxx 0c0 (xxx可能为700或其它)，AIX常会将当时系统的运行情况记录下来，这就是DUMP。

当DUMP产生后，请将磁带放入磁带机，用命令 # snap -a -o /dev/rmt0将DUMP 文件拷贝到磁带设备/dev/rmt0 中。注明磁带机的block size, DUMP产生的日期和机器的型号及序列号。同时，请用# errpt -a >/tmp/err.log 将errorlog 记在/tmp/err.log中，并将 /tmp/err.log 和 /tmp/hacmp.* 拷贝到软盘或磁带上。将磁带和软盘交给IBM工程师。

3.故障定位、故障排除

根据我们在实际商用系统中碰到问题，我们总结出了以下几种常见故障及其定位方式和解决方法。

3.1. 硬件故障

硬件故障有很多种，对系统产生的影响也不一样，这里按其故障对系统的影响程度分：致命影响的硬件故障和只影响功能的硬件故障两类进行硬件分类：

其损坏对系统产生致命影响（将使机器宕机或无法启动）的硬件包括：

主板、CPU、I/O柜（包含本地盘、光驱、PCI插槽等的柜子）或CEC柜（包含CPU/MEMORY等的柜子）、I/O柜与CEC柜的接线、电源模块、风扇、本地硬盘、内存损坏等等

注：I/O柜和CEC柜一般在比较高端的小型机才有，如M80，低端的是合一的。

这些设备的损坏等将使系统无法完成自检、引导和启动，液晶显示屏上都将有错误信息，可根据液晶显示屏上的错误码对照Service Guide查的错误原因，如果是工作状态下出现这些硬件损坏，则系统将被挂起或宕机。

其损坏对仅对系统产生功能影响（机器不会宕机并能正常启动）的硬件包括：

网卡、本地硬盘有坏块、显卡、SSA卡和其他外围设备

这些设备的损坏只影响特定功能，如网络功能、显示功能、访问磁阵的功能等，对于本地硬盘有坏块的情况，则要看坏块中是否包含了重要的系统文件，如果不是重要系统文件，则系统功能不受影响，但也建议立即更换该硬盘。

故障定位和排除：

以上硬件故障信息都可以使用：

液晶屏上的错误码或：

errpt –dH 查看到

根据错误码确定是什么硬件出了故障，对商用系统来讲，由于是双机系统，如果损坏机器是主机可以将此服务器切换成备机，然后修复故障机器，恢复系统。

3.2. 磁阵故障

磁阵引起的故障是目前碰到的最频繁、危害最大的故障，据不完全统计，其故障覆盖到总故障的70%以上，具体来讲，可能引起磁阵故障的环节包括：磁阵硬盘、7133柜子、主机上的SSA卡、连接7133与主机的SSA线、硬盘的位置和ssa线的接线方式、以及盘柜使用的电压及周围磁场、磁阵/硬盘/ssa卡的微码等都可能造成7133的异常。

7133磁阵的问题是最复杂的，一般有物理损坏的原因也有环境原因，这是主因，如接线、插盘位置不符合要求、未及时查看系统告警等造成系统中断等辅因。按照我们的经验，不管是什么硬件故障导致7133故障，系统都会产生告警，如果能及时发现问题并采取措施，一般都能防止故障的发生。

故障定位：

7133硬件故障也可以使用：

errpt –dH 查看到

伴随的错误码有：

B4C00618 0115140004 P H ssa0 RESOURCE UNAVAILABLE

FE9E9357 0401082304 P H ssa0 DISK OPERATION ERROR

FE9E9357 1205000803 P H pdisk3 DISK OPERATION ERROR

03913B94 1122031103 U H LVDD HARDWARE DISK BLOCK RELOCATION ACHIEVED

613E5F38 1121125103 P H LVDD I/O ERROR DETECTED BY LVM

625E6B9A 0401090004 P H ssa0 ADAPTER DETECTED OPEN SERIAL LINK

26CA120B 020******* P H ssa0 CACHE STORAGE CARD

所有的错误码都预示着7133有异常，红色部分则表示肯定出现了硬件故障，需要立即进行检查并采取措施，否则磁阵将很快不能访问。对于蓝色部分：

625E6B9A 0401090004 P H ssa0 ADAPTER DETECTED OPEN SERIAL LINK

表示ssa出现了开环，出现开环不仅影响IO性能，也增加了风险，即如果另一个环路也出现问题，将不能访问磁阵。

开环一般有两种情况：1)如果625E6B9A报错比较频繁，如每天几次，则表示系统很有可能出了硬件故障，虽然不会导致访问磁阵失败，但需要立即查出原因并解决。查错方法可以参考下面的描述。2)如果 625E6B9A错误偶尔报一次，则要具体情况具体对待，有可能是读写忙出现的误报，也按下面方法进行排查，如果没有查出具体的原因，则可以继续观察。

26CA120B 020******* P H ssa0 CACHE STORAGE CARD

该错误一般是在:SSA卡带write cache并打开FastWrite，而ssa卡上用于write cache供电的可充电镍镉电池达到或接近安全寿命的情况下产生的。这类错误产生将影响IO写性能，并且由于在FastWrite打开的情况下，主备机需要同步ssa卡上的write cache，所以甚至会影响到主备机同步。具体解决方法可参考下文。

故障排除：

对于红色部分错误的问题排除，一般可以使用diag命令进行进一步诊断：

#diag -> Task Selection -> SSA Service Aids -> Link Verification

检查环路中是否出现了？？？的盘符或状态不是good的硬盘

或使用：

#smitty ssaraid -> List All Defined SSA RAID Arrays

查看磁盘阵列RAID盘的状态是否是Good。如果是degrade或其他状态表示RAID盘出现问题了

这时候不建议再进行单独硬盘的Certify，而是赶紧通知IBM准备好相同型号和大小的硬盘(至少两块)到现场进行进一步的诊断和坏盘更换。

625E6B9A 0401090004 P H ssa0 ADAPTER DETECTED OPEN SERIAL LINK的排查方法：

1、要求将7133中未插硬盘的槽位全部插上dummy盘。 (dummy盘:哑元盘,就是那个空壳子，相当于代替SSA硬盘装在磁盘阵列的塑料模型,当磁盘阵列的16个槽位没有被SSA硬盘插满时才用到.)

2、看看Loop状态:diag--->Task Selection-->SSA Service Aids-->Link Verification.正常Adapter Port下的两列数字是连续不间断的排列,且Status都为good,如果Physical列有???????符号.或Status不是good，则说明已经存在硬盘或链路故障，这种情况则要立即采取行动，做进一步检查以确定是否要更换硬盘。检查单盘是否有问题的方法如下：

diag--->Task Selection-->SSA Service Aids-->Certify Disk

选择认为存在故障的硬盘进行检查

3、如果7133存在硬件故障时，可从状态灯上观察到：

当单块硬盘出现故障或未被使用时，其面板上的硬盘状态灯会不亮阵列的状态灯黄灯会亮或接SSA线的端口的指示灯也会熄灭

如果通过以上三种方法都未发现问题，而系统仍报Open Serial Link错误，建议继续跟踪。

26CA120B 020******* P H ssa0 CACHE STORAGE CARD的处理方法：

背景介绍：

IBM小型机上连接7133磁阵所配置的SSA卡一般都带有一块充电电池，该电池用于在突然停电的情况下保护ssa卡上的fast write cache中的信息不丢失，这

块电池的安全寿命一般是22000小时，差不多两年半的时间，也就是说，当fast write模式启动的情况下，一般两年半以后需要更换这块电池。

问题表现：

对ssa卡上的电池保护是通过卡上的一个计数器实现的，每运行一小时该计数器会增加一，当该计数接近或超过22000时，系统会有26CA120B硬件报警：26CA120B 020******* P H ssa1 CACHE STORAGE CARD

可以用如下命令检查ssa卡上的状态：(-a 后带上卡的逻辑设备名，这里假设是ssa0)

ssa_fw_status -a ssa0 -p (检查电池已经工作的时间，小时为单位)

ssa_fw_status -a ssa0 -l (检查电池安全工作寿命，小时为单位)

ssa_fw_status -a ssa0 -c (检查ssa卡上的fast write功能是否被激活)

处理步骤：（按优选方式列出，从中选择一种即可）

1)更换电池

选择系统闲时，更换主备机ssa卡电池，可以采用：

停备机－》更换备机ssa卡电池－》起备机（双机服务）－》主备倒换－》

停原主机－》更换原主机ssa卡电池－》起原主机（双机服务）

2)如果系统出现26CA120B电池告警，使用ssa_fw_status -a ssa0 -c 检查主用ssa卡(一般是ssa0)的Fast Write是否处于inactive（未被激活）状态，如果是，则以root执行如下命令：

ssa_format -l ssa0 -b

errclear 0

/usr/lib/errstop

/usr/lib/errdemon

可以暂缓更换电池时间，等有电池后再更换，但这段时间对磁阵读写性能会有所影响。

3)如果短期内不能更换电池，同时主机主用卡的Fast Write仍然处于Active状态，建议手工屏蔽fast write功能

1）先停止双机

2）在1号机修改hdisk该属性：

smitty dev->ssa disks->ssa logical disks->change /show characters of ... -> [choose hdisk2] -> fast write [no]

3）在1号机激活卷组

varyonvg zxinvg

4）在1号机去激活卷组

varyoffvg zxinvg

5）在2号机上执行

smitty dev->ssa disks->ssa logical disks->change /show characters of ... -> [choose hdisk2] -> fast write [no]

检查fast write是否已经改为no (只要1号机做了2好机就不用再修改了) 6）在2号机上执行

rmdev -dl hdisk2

cfgmgr -v

7）在2号机上执行

lspv (查看hdisk2是否已找到)

8）然后执行

varyonvg zxinvg

varyoffvg zxinvg

9）重新启动双机

对于出现错误：

B4C00618 0115140004 P H ssa0 RESOURCE UNAVAILABLE

而不伴随其他红色标出错误的情况，则通过以下方式排查：

可能是hdisk中将‘enable user of hot spare’打开了，而实际并没有配置hot spare盘，

可以通过如下方式解决：

检查RAID的状态：

#smitty ssaraid

list all defined SSA RAID arrays : all are in status good (ssa0 )

检查是否配置了hot spare:

list/identify SSA Physical disks-->List hot spares : none

修改每个ssa卡所配置的hdisk的属性：

: set "enable use of hot spare" to "no"

然后再执行：

# /usr/lib/errstop

# cp /var/adm/ras/errlog /var/adm/ras/errlog.bak

#/usr/lib/errdemon

#errclear 0

对于物理硬盘的接法可参考如下说明：（有可能老局未配置hot spare，则连线方法按未配置hot spare盘的个数计算）

分以下几种情况讲述：

1) 数据盘小于等于6块，建议配置一块hotspare

2) 数据盘大于等于8块小于等于10块，建议配置两块hotspare

3) 数据盘大于等于12块小于等于14块，建议配置两块hotspare

l 数据盘小于等于6块，配置一块hotspare的接线和配置规则：

a) 主机A1、A2接磁阵1、8位置；备机A1、A2接磁阵4、5位置

b) 保证磁阵前排1\4\5\8硬盘位置一定要插盘，其余的盘可以挑空位插，注意1-4、5-8两侧的数据盘保持轴对称关系插入（如1和8是轴对称的、4和5是轴对称的）

c) 没有插硬盘的位置一定要插上dummy盘

d) 做RAID0＋1时，考虑到性能问题，请将1-4、5-8以轴对称方式一一对应做硬盘镜像，举例如下:

ibm对pdisk的排序与实际的物理位置是不同的，所以必须先通过lsdev -C |grep pdisk的方式找出其对应关系并记录下来，如：

pdisk0 Available 11-08-1641-01-P SSA160 Physical Disk Drive

pdisk1 Available 11-08-1641-05-P SSA160 Physical Disk Drive

pdisk2 Available 11-08-1641-04-P SSA160 Physical Disk Drive

pdisk3 Available 11-08-1641-08-P SSA160 Physical Disk Drive

看第三列中间字符中有-01-的字样，表示其物理硬盘位置，以上对应关系表示pdisk0-pdisk3对应的物理槽位分别是前排1\5\4\8的位置，所以在使用smitty ssaraid做RAID0+1时，需将1\8位置的硬盘（pdisk0/pdisk3）做成镜像、4\5位置的硬盘（pdisk2/pdisk1）做成镜像，所以选择Primary Disks/Secondary Disks 时如下：

smitty ssaraid-> Add an SSA RAID Array -> ...

Primary Disks [需要选择：pdisk0 pdisk2] -- 1\4槽位的硬盘作为主盘

Secondary Disks [需要选择：pdisk3 pdisk1] -- 8\5槽位的硬盘作为从盘

该要求只是从性能考虑，并不增加其他特性。

e) hot spare盘插入位置可以找前排8个位置中的空位插入即可。无特殊位置要求，制作方法如下：使用lsdev -C |grep pdisk方式找出其pdisk号，如pdisk5 然后使用如下方式将其做成hot spare盘。

smitty ssaraid->Change Use of Multiple SSA Physical Disks->选择ssa卡(连接磁阵的ssa卡，缺省为ssa0)

->选择作为hotspare的pdisk，如pdisk6 ->New Use->选择 hot spare 按回车创建即可

l 数据盘大于等于8块小于等于10块，配置两块hotspare的接线和配置规则：

a) 主机A1、A2接磁阵1、12位置；备机A1、A2接磁阵8、9位置

b) 保证磁阵前排1－8位置插满数据盘，9-12位置的数据盘和hot spare盘位置可任意。

c) 没有插硬盘的位置一定要插上dummy盘

d) 做RAID0＋1时，考虑到性能问题，请将1-4、5-8以轴对称方式一一对应做硬盘镜像，

9-12位置中有数据盘的，将其对应做镜像，其余两块做hot spare，举例如下: ibm对pdisk的排序与实际的物理位置是不同的，所以必须先通过lsdev -C |grep pdisk的方式找出其对应关系并记录下来，如：

pdisk0 Available 11-08-1641-01-P SSA160 Physical Disk Drive

pdisk1 Available 11-08-1641-05-P SSA160 Physical Disk Drive

pdisk2 Available 11-08-1641-04-P SSA160 Physical Disk Drive

pdisk3 Available 11-08-1641-08-P SSA160 Physical Disk Drive

pdisk4 Available 11-08-1641-02-P SSA160 Physical Disk Drive

pdisk5 Available 11-08-1641-03-P SSA160 Physical Disk Drive

pdisk6 Available 11-08-1641-07-P SSA160 Physical Disk Drive

pdisk7 Available 11-08-1641-06-P SSA160 Physical Disk Drive

pdisk8 Available 11-08-1641-09-P SSA160 Physical Disk Drive

pdisk9 Available 11-08-1641-11-P SSA160 Physical Disk Drive

pdisk11 Available 11-08-1641-12-P SSA160 Physical Disk Drive

看第三列中间字符中有-01-的字样，表示其物理硬盘位置，以上对应关系表示pdisk0-pdisk11对应的物理槽位分别是1\5\4\8\2\3\7\6\9\11\10\12的位置，所以在使用smitty ssaraid做RAID0+1时，前面八块盘按1-4、5-8轴对称方式对应做mirror,9-12中如选择9(pdisk8)/12(pdisk11)位置做mirror

所以选择Primary Disks/Secondary Disks时如下：

smitty ssaraid-> Add an SSA RAID Array -> ...

Primary Disks [选择：pdisk0 pdisk4 pdisk5 pdisk2 pdisk8] 物理1-4,9槽位

Secondary Disks [选择：pdisk3 pdisk6 pdisk7 pdisk1 pdisk11]物理8-5,12槽位该要求只是从性能考虑，并不增加其他特性。

e) 剩余物理位置10(pdisk10)/11(pdisk9)盘做成hot spare，方法同上e)步骤

l 数据盘大于等于12块小于等于14块，配置两块hotspare的接线和配置规则：

a) 主机A1、A2接磁阵1、16位置；备机A1、A2接磁阵8、9位置

b) 空出3、14位置插hot spare，如果是12块数据盘，空出2、15位置插dummy盘，其余都插入数据盘；如果是14块数据盘，则将剩余的14个位置全部插上数据盘

c) 做RAID0＋1时，考虑到性能问题，请将1-8、9-16以轴对称方式一一对应做硬盘镜像， hot spare也满足轴对称关系，举例如下:

ibm对pdisk的排序与实际的物理位置是不同的，所以必须先通过lsdev -C |grep pdisk的方式找出其对应关系并记录下来，如：

pdisk0 Available 11-08-1641-01-P SSA160 Physical Disk Drive

pdisk1 Available 11-08-1641-05-P SSA160 Physical Disk Drive

pdisk2 Available 11-08-1641-04-P SSA160 Physical Disk Drive

pdisk3 Available 11-08-1641-08-P SSA160 Physical Disk Drive

pdisk4 Available 11-08-1641-02-P SSA160 Physical Disk Drive

pdisk5 Available 11-08-1641-03-P SSA160 Physical Disk Drive

pdisk6 Available 11-08-1641-07-P SSA160 Physical Disk Drive

pdisk7 Available 11-08-1641-06-P SSA160 Physical Disk Drive

pdisk8 Available 11-08-1641-09-P SSA160 Physical Disk Drive

pdisk10 Available 11-08-1641-10-P SSA160 Physical Disk Drive

pdisk11 Available 11-08-1641-12-P SSA160 Physical Disk Drive

pdisk12 Available 11-08-1641-16-P SSA160 Physical Disk Drive

pdisk13 Available 11-08-1641-13-P SSA160 Physical Disk Drive

pdisk14 Available 11-08-1641-15-P SSA160 Physical Disk Drive

pdisk15 Available 11-08-1641-14-P SSA160 Physical Disk Drive

看第三列中间字符中有-01-的字样，表示其物理硬盘位置，以上对应关系表示pdisk0-pdisk15对应的物理槽位分别是1\5\4\8\2\3\7\6\9\11\10\12\16\13\15\14的位置，所以在使用smitty ssaraid做RAID0+1时，以1-8、9-16以轴对称创建mirror所以选择Primary Disks/Secondary Disks时如下：

smitty ssaraid-> Add an SSA RAID Array -> ...

Primary Disks [选择：pdisk0 pdisk4 pdisk2 pdisk1 pdisk7 pdisk6 pdisk3]

物理1-8槽位，除3位置以外

Secondary Disks [选择：pdisk12 pdisk14 pdisk13 pdisk11 pdisk9 pdisk10 pdisk8] 物理16-9槽位，除14位置以外

该要求只是从性能考虑，并不增加其他特性。

剩余物理位置3(pdisk5)/14(pdisk15)盘做成hot spare，方法同上e)步骤

3.3. 网络故障

由于我们应用对网络依赖很强，所以当网络出现全阻或瞬断都将对系统产生重大影响，网络故障一般可分为硬件故障（如网卡故障和交换机、路由器故障）和软件故障（网络中有IP包攻击或网络拥塞）两种情况。

硬件故障：

1．网卡

对于网卡故障，由于商用系统中都是采用IBM的HA双机系统，而且每台机器都配置有至少两块网卡，所以当单块网卡或网线出现问题时，HA软件都将采取措施实现Service IP切换。

网卡故障定位方法：使用errpt –dH 可查看到网卡服务中断的错误，再使用diag进行网卡诊断

网卡故障排查方法：如果诊断出网卡有问题，则关闭系统后进行更换。（如果是主机，则先手工切换为备机后再操作）

2．交换机

我们的网络一般都采取双网双平面的结构，所以当一个网络平面的交换机出现问题时，也不会中断网络服务，但值得重视的是：主、备交换机之间的直连线要保持畅通，否则一单发生IBM服务器主机或SIU主机的网卡切换，将导致IBM服务器主机和SIU主机断链，从而导致业务全阻。

还有一种情况，有些地方为了网络安全，对连到switch上的不同设备划分了不同的VLAN，同时又将主、备switch之间改成通过两个口连接，并划分在一个channel group里，当时碰到的一种情况是：

1)当时IBM服务器的主网卡从缺省VLAN0到VLAN6实现迁移时，网络将出现15秒～30秒的瞬断

2)当时主、备交换机之间的channel group工作不正常，链路不通。

当1)发生时，IBM双机发生主、备网卡倒换，但由于2)的问题，导致IBM主机无法与SIU建链。

问题排查及建议：

1) 建议开局时一定要做双网双平面中一个平面的swith发生掉电的故障测试

2) 建议一定要做主、备交换机之间的设备之间的网络互访测试，确保畅通

3) 尽量不要在白天在switch上进行配置修改，如果需要修改，也要在晚上进行，并有严格的方案

软件故障：

1．网络拥塞

由于系统在封闭网络中运行，所以发生网络拥塞的可能性比较小，但如果网络拓扑比较复杂的话，也可能发生这种情况，在主机上的表现为ping主机丢包严重，主机到SIU之间链路时通时断，数据包丢失，设备功能异常。

问题排查及建议：

1) 尽量使NT/2000的机器从网络上隔离出去

2) 如果情况仍未改善，建议启动SIU应急流程

IBMPower740小型机+11G数据库维护教程

露露Power740小型机+11G数据库维护教程硬件环境： 1、Power740小型机+AIX6.1操作系统 2、数据库版本：oracle 11.2.0.4 3、数据库安装模式:Oracle11R2+ASM+RAC（集群负载）一、开机步骤 1、打开Power740小型机1和2开关机开关两台服务器都要开机，在确定小型机电源处于关闭情况下开机，如果小型机处于开机状态跳过此步骤。 2、开启集群和数据库小机开机后集群和数据库自动启动，一般不需要手工启动。 Ping 192.168.0.31\32\33\34\35 -t ping通后查询数据库状态。通过实际IP登录小机1 登录方式1：windows开始菜单-运行 telnet 192.168.0.31 登录方式2：远程连接小机工具登录方式3：直接在小机操作用户名:root 密码:root #su – grid 切换到grid网格用户 $crs_stat –t 查询集群状态

ORACLE正常工作状态：3个gsd进程是OFFLINE 其他进程都是ONLINE。此时完成开机和数据库启动操作，应用程序可以正常使用。如果等待30分钟还没有正常启动,启动出现异常,可执行以下操作： #su – grid $srvctl start nodeapps -n dbserver1 $srvctl start nodeapps -n dbserver2 $srvctl start asm -n dbserver2 $srvctl start asm -n dbserver1 $srvctl start database -d lolo 单独启动监听 srvctl start listener -n dbserver1 srvctl start listener -n dbserver2 3、启动客户管理系统接口远程桌面192.168.1.24->露露运营绩效管理系统->业务查询->WEB定时任务->【启动任务】4、启动EM 说明：EM为ORACLE数据库WEB管理，可以不启动，不启动不影响应用程序使用。 1）通过服务IP登录小机1 登录方式1：windows开始菜单-运行 telnet 192.168.0.33 登录方式2：远程连接小机工具登录方式3：直接在小机操作以下以登录方式1说明。用户名:root 密码:root

IT运维手册故障及处理

IT运维手册第二篇硬件篇一计算机章㈤常见问题 1主机 ⑴无法正常开机 ①硬盘灯亮多为显示器或LCD排线问题，可插入系统引导盘看有无反应，若无反应，则为硬件问题，建议售后处理；若有反应，则为软件问题，可重装系统。 ②硬盘灯不亮 I电源问题需更换电源和电池，多为电源适配器或电池损坏造成的提供电压不稳。可更换同型号电源线，排查故障。 II内存问题拔插内存条或更换插槽。可能是内存条松动或自配内存条不兼容造成，若因不兼容，可通过更改BIOS设置解决。 III灰尘问题笔记本长期不清洗，积压过多灰尘会造成静电或短路，可拆开外壳用吹风机清理灰尘。 IV主板问题主板问题是造成不能开机最大可能因素，主板为集成电路，任何地方损坏都会造成硬盘无法通电，从而不能开机，建议去售后处理。 ⑵无法正常上网

①网络设置问题此原因较多出现于需手动指定IP、网关、DNS服务器联网方式下，及使用代理服务器上网的，应仔细检查计算机的网络设置。 ②DNS服务器的问题 I当IE无法浏览网页时，可先尝试用IP地址来访问，如果可以访问，则为DNS的问题，造成DNS的问题可能是联网时获取DNS出错或DNS服务器本身问题，可手动指定DNS服务（地址可以是当地TSP提供的DNS服务器地址，也可用其它地方可正常使用DNS服务器地址。在网络的属性里进行（控制面板-网络和拨号连接-本地属性-TCP/IP协议-属性-使用下面的DNS服务器地址）。不用的ISP有不同的DNS地址。有时候则是路由器或网卡的问题，无法与ISP的DNS服务连接，这种情况可重启路由器或重新设置路由器。 II本地DNS缓存出现问题，为提高网站访问速度，系统会自动将已经访问过并获取IP地址的网站存入本地DNS缓存里，一旦继续访问此网站，则不再通过DNS服务器而直接从本地DNS缓存取出该网站的IP地址进行访问。所以，如果本地DNS缓存出现问题，会导致网站无法访问。可以在“运行”中执行ipconfig /flushdns来重建本地DNS缓存。 ③IE浏览器本身的问题 IE浏览器本身出现故障或IE被恶意修改破坏都会导致无法浏览网页，可尝试用上网助手“IE修复专家”来修复或者重装IE浏览器。 ④网络防火墙问题如果网络防火墙设置不当，如安全等级过高、不小心把IE放进了阻止访问列表、错误的防火墙策略等，可尝试检查策略、降低防火墙安全等级或直接关掉试试是否恢复正常。

(PB印制电路板技术手册]PB布线设计

（PB印制电路板）PB布线设计

PCB布线设计在当今激烈竞争的电池供电市场中，由于成本指标限制，设计人员常常使用双面板。尽管多层板(4层、6层及8层)方案在尺寸、噪声和性能方面具有明显优势，成本压力却促使工程师们重新考虑其布线策略，采用双面板。在本文中，我们将讨论自动布线功能的正确使用和错误使用，有无地平面时电流回路的设计策略，以及对双面板元件布局的建议。自动布线的优缺点以及模拟电路布线的注意事项设计PCB时，往往很想使用自动布线。通常，纯数字的电路板(尤其信号电平比较低，电路密度比较小时)采用自动布线是没有问题的。但是，在设计模拟、混合信号或高速电路板时，如果采用布线软件的自动布线工具，可能会出现一些问题，甚至很可能带来严重的电路性能问题。例如，图1中显示了一个采用自动布线设计的双面板的顶层。此双面板的底层如图2所示，这些布线层的电路原理图如图3a和图3b所示。设计此混合信

号电路板时，经仔细考虑，将器件手工放在板上，以便将数字和模拟器件分开放置。采用这种布线方案时，有几个方面需要注意，但最麻烦的是接地。如果在顶层布地线，则顶层的器件都通过走线接地。器件还在底层接地，顶层和底层的地线通过电路板最右侧的过孔连接。当检查这种布线策略时，首先发现的弊端是存在多个地环路。另外，还会发现底层的地线返回路径被水平信号线隔断了。这种接地方案的可取之处是，模拟器件(12位A/D转换器MCP3202和2.5V参考电压源MCP4125)放在电路板的最右侧，这种布局确保了这些模拟芯片下面不会有数字地信号经过。图3a和图3b所示电路的手工布线如图4、图5所示。在手工布线时，为确保正确实现电路，需要遵循一些通用的设计准则：尽量采用地平面作为电流回路；将模拟地平面和数字地平面分开；如果地平面被信号走线隔断，为降低对地电流回路的干扰，应使信号走线与地平面垂直；模拟电路尽量靠近电路板边缘放置，数字电路尽量靠近电源连接端放置，这样做可以降低由数字开关引起的di/dt 效应。这两种双面板都在底层布有地平面，这种做法是为了方便工程师解决问题，使其可快速明了电路板的布线。厂商的演示板和评估板通常采用这种布线策略。但是，更为普遍的做法是将地平面布在电路板顶层，以降低电磁干扰。

HP小型机MP简易使用手册

第二章访问MP 可以通过MP serial port 或者MP LAN port 登陆MP，默认的用户名/口令为：Admin/Admin 登陆过程： ************************************************************************* This is a private system. Do not attempt to login unless you are an authorized user. Any authorized or unauthorized access or use may be monitored and can result in criminal or civil prosecution under applicable law. ************************************************************************* ************************************************************************* Only default users are configured. Use one of the following user/password pairs to login: Admin/Admin Oper/Oper *************************************************************************

IBM P750小型机日常维护手册

IBM P750小型机日常维护手册一、服务器硬件运行状态检查 1.当服务器处于启动和正常工作状态时，其前面板上的状态灯（与电源灯并排）和各硬盘的状态灯（一排小灯，与各硬盘位置一一对应）应显示为绿色。 2.当服务器的状态灯出现橙黄色时，说明有硬件告警，此时要检查服务器的电源、接线、硬盘等。如果有硬件故障则需要立即进行更换和更正，如果查不出具体问题，则需要联系相关专家进一步诊断。 3.当硬盘工作正常时，与各硬盘对应的硬盘灯会呈绿色，如无读写，则绿灯一直亮，如该硬盘有读写操作，则绿灯会不规则闪烁，当硬盘损坏时，则硬盘状态灯将熄灭，或者呈闪烁状态：以1～3秒的频率有规律地、不停地闪烁。如果发现有服务器硬件状态灯不正常的情况，请及时联系我公司工程师，以便及时进行诊断并解决故障。二、HMC（硬件管理平台）管理与操作 HMC的两种访问途径： 1、在机房直接通过显示器和键盘进行管理维护等相关操作 2、通过web远程访问，登录HMCweb管理界面，访问地址为：https://

1、登录HMC 1.1 浏览器访问连接HMC后，首页界面如下图所示。 1.2 点击下图所示链接，进入HMC验证登录界面。 1.3 输入用户名与口令，登录HMC。用户名：hscroot 口令：

1.4 成功登录到HMC管理界面如下图所示。 2、注销HMC 在HMC console右上角有（hscroot|help|log off）链接，单击log off，会出现如下图所示注销界面：

选择Log off，系统返回到HMC初始登录界面状态。 3、重启HMC 左边导航栏中选择→HMC Management→shut down or Restart，如下图所示，对HMC进行正常重启及关机操作。请谨慎对HMC进行关机和重启操作！

思科故障排除手册

故障处理方法一、网络的复杂性一般网络包括路由、拨号、交换、视频、W AN（ISDN、帧中继、ATM、…）、LAN、VLAN、… 二、故障处理模型 1、界定问题（Define the Problem）详细而精确地描述故障的症状和潜在的原因 2、收集详细信息（Gather Facts）R>信息来源：关键用户、网络管理系统、路由器/交换机1）识别症状： 2）重现故障：校验故障依然存在 3）调查故障频率： 4）确定故障的范围：有三种方法建立故障范围由外到内故障处理（Outside-In Troubleshooting）：通常适用于有多个主机不能连接到一台服务器或服务器集由内到外故障处理（Inside-Out Troubleshooting）：半分故障处理（Divide-by-Half Troubleshooting） 3、考虑可能情形（Consider Possibilities）考虑引起故障的可能原因 4、建立一份行动计划（Create the Action Plan） 5、部署行动计划（Implement the Action Plan）用于纠正网络故障原因。从最象故障源处，想出处理方法每完成一个步骤，检查故障是否解决 6、观察行动计划执行结果（Observe Results） 7、如有行动计划不能解决问题，重复上述过程（Iterate as Needed）三、记录所做修改在通过行动计划解决问题后，建议把记录作为故障处理的一部分，记录所有的配置修改。第2章网络文档一、网络基线解决网络问题的最简单途径是把当前配置和以前的配置相比较。基线文档由不同的网络和系统文档组成，它包括：网络配置表网络拓扑图 ES网络配置表 ES网络拓扑图创建网络的注意事项： 1）确定文档覆盖的范围； 2）保持一致：收集网络中所有设备的相同信息； 3）明确目标：了解文档的用途； 4）文档易于使用和访问； 5）及时维护更新文档。二、网络配置表网络配置表的通常目标是提供网络中使用的硬件和软件组成的列表，其组成有：分级项目杂项信息设备名、设备型号、CPU类型、FLASH、DRAM、接口描述、用户名口令第1层介质类型、速率、双工模式、接口号、连接插座或端口第2层MAC地址、STP状态、STP根桥、速端口信息、VLAN、Etherchannel配置、封装、

印刷电路板实用手册

【印制电路板电镀及层压化学类简易实用手册】印制电路板制造技术的飞速发展，促使广大从事印制电路板制造行业的人们，加快知识更新。为此，就必须掌握必要的新知识并与原有实用的科技成为工作必备的参考资料，更好地从事各种类型的科研工作。这本手册就是使从事高科技行业新生产者尽快地掌握与印制电路板制造技术相关的知识，更好的理解和应用印制电路板制造方面的所涉及到的实用技术基础知识，为全面掌握印制电路板制造的全过程和所涉及到科学试验提供必要的基础知识和手段。第一章溶液浓度计算方法在印制电路板制造技术，电镀为其中十分重要的一个环节，各种溶液占了很大的比重，对印制电路板的最终产品质量起到关键的作用。无论是选购或者自配都必须进行科学计算。正确的计算才能确保各种溶液的成分在工艺范围内，对确保产品质量起到重要的作用。根据印制电路板生产的特点，提供六种计算方法供选用。 1．体积比例浓度计算： ?定义：是指溶质(或浓溶液)体积与溶剂体积之比值。 ?举例：1：5硫酸溶液就是一体积浓硫酸与五体积水配制而成。 2．克升浓度计算： ?定义：一升溶液里所含溶质的克数。 ?举例：100克硫酸铜溶于水溶液10升，问一升浓度是多少? 100/10=10克/升 3．重量百分比浓度计算 (1)定义：用溶质的重量占全部溶液重理的百分比表示。 (2)举例：试求3克碳酸钠溶解在100克水中所得溶质重量百分比浓度? 4．克分子浓度计算 ?定义：一升中含1克分子溶质的克分子数表示。符号：M、n表示溶质的克分子数、V表示溶液的体积。如：1升中含1克分子溶质的溶液，它的克分子浓度为1M；含1／10克分子浓度为0.1M，依次类推。 ?举例：将100克氢氧化钠用水溶解，配成500毫升溶液，问这种溶液的克分子浓度是多少? 解：首先求出氢氧化钠的克分子数： 5. 当量浓度计算 ?定义：一升溶液中所含溶质的克当量数。符号：N(克当量／升)。 ?当量的意义：化合价：反映元素当量的内在联系互相化合所得失电子数或共同的电子对数。这完全属于自然规律。它们之间如化合价、原子量和元素的当量构成相表关系。元素=原子量/化合价 ?举例：钠的当量＝23/1=23；铁的当量＝55.9/3=18.6 ?酸、碱、盐的当量计算法： A 酸的当量＝酸的分子量/酸分子中被金属置换的氢原子数 B 碱的当量＝碱的分子量/碱分子中所含氢氧根数 C 盐的当量＝盐的分子量/盐分子中金属原子数金属价数

HP小型机服务器应急处理方案

HP小型机应急处理方案系统开、关机简介一般地说，系统开关机应严格遵循以下步骤: 1. 开机顺序 1). 打开总电源。 2). 打开计算机机柜电源 3). 打开外部设备电源.(如磁盘阵列,磁带库等) 4). 最后打开主机电源. 2. 关机顺序 1). 进行操作系统的关闭(#shutdown -h -y 0) 2). 关闭主机电源. 3). 关闭外设电源.(如磁盘阵列，磁带库等) 4). 关闭其他设备电源和机柜电源； 5). 最后关闭总电源。日常维护检查在对广大客户的支持服务中，我们经常发现，由于种种原因，客户往往未能及时发现系统中的一些异常现象，最终导致了对系统和应用的重大影响。为了帮助客户各有效、方便地管理系统，我们设计了《日常检查维护表》，希望能够帮助广大用户加强日常管理，从而做到防患于未然，尽可能保障系统的运行。我们分成以下几个部分进行介绍：使用指南：如何使用表格，如何使用相关命令进行检查。同时由于客户的配置千变万化，允许HP客户支持工程师和客户共同对表格和指南进行定制。日常检查表

日常维护检查使用指南在《日常维护检查表》中，我们把日常的检查分成以下几个部分：硬件操作系统备份应用我们下面分别描述各类检查的内容和方法。HP支持工程师和客户可以一起定制这份指南，例如，定制要检查那些应用日志和进程等等。硬件在这部分中，我们检查以下内容： 1:面板指示：在大多数的服务器中，都由一个液晶面板，显示服务器的执行状态。在正常情况下，应该是FxxF的格式。在系统出现故障时，会出现WARNING或FAULT的提示。具体请参见《技术指南》。系统管理员应该定期检查该指示，确认系统正常工作；否则，应该立即联系HP公司。 2:服务器中的各个扩展卡的指示灯在服务器中，存在多种扩展卡，例如，SCSI卡（连接SCSI设备），以太网卡等。这些卡都由一个或多个指示灯。从这些指示灯可以了解这些卡的工作情况。具体情况，请参见各个卡的说明书。 SCSI卡：在正常情况下，自检灯（self test）应该是暗的；终结电源指示灯（Terminator PWR）是亮的以太网卡：在正常情况下，自检灯（self test）应该是暗的；连接灯（Link）是亮的其他卡： 3:外设的状态大部分外设也都由自己的状态指示。下面是比较常见的几种： M10,M20,M30磁盘阵列这些磁盘阵列，正常情况下，硬盘的指示灯：应该是绿色；如果变成黄色，则说明该磁盘发生故障。

网络工程师排除网络故障手册

第1章故障处理方法一、网络的复杂性一般网络包括路由、拨号、交换、视频、WAN（ISDN、帧中继、ATM、…）、LAN、VLAN、… 二、故障处理模型 1、界定问题（Define the Problem）详细而精确地描述故障的症状和潜在的原因 2、收集详细信息（Gather Facts）R>信息来源：关键用户、网络管理系统、路由器/交换机 1）识别症状： 2）重现故障：校验故障依然存在 3）调查故障频率： 4）确定故障的范围：有三种方法建立故障范围 ? 由外到内故障处理（Outside-In Troubleshooting）：通常适用于有多个主机不能连接到一台服务器或服务器集 ? 由内到外故障处理（Inside-Out Troubleshooting）： ? 半分故障处理（Divide-by-Half Troubleshooting） 3、考虑可能情形（Consider Possibilities）考虑引起故障的可能原因 4、建立一份行动计划（Create the Action Plan） 5、部署行动计划（Implement the Action Plan）用于纠正网络故障原因。从最象故障源处，想出处理方法每完成一个步骤，检查故障是否解决 6、观察行动计划执行结果（Observe Results） 7、如有行动计划不能解决问题，重复上述过程（Iterate as Needed）三、记录所做修改在通过行动计划解决问题后，建议把记录作为故障处理的一部分，记录所有的配置修改。第2章网络文档一、网络基线解决网络问题的最简单途径是把当前配置和以前的配置相比较。基线文档由不同的网络和系统文档组成，它包括： ? 网络配置表 ? 网络拓扑图 ? ES网络配置表 ? ES网络拓扑图创建网络的注意事项： 1）确定文档覆盖的范围； 2）保持一致：收集网络中所有设备的相同信息； 3）明确目标：了解文档的用途； 4）文档易于使用和访问； 5）及时维护更新文档。二、网络配置表网络配置表的通常目标是提供网络中使用的硬件和软件组成的列表，其组成有：分级项目杂项信息设备名、设备型号、CPU类型、FLASH、DRAM、接口描述、用户名口令第1层介质类型、速率、双工模式、接口号、连接插座或端口第2层 MAC地址、STP状态、STP根桥、速端口信息、VLAN、Etherchannel配置、封装、中继状态、接口类型、端口安全、VTP状态、VTP模式

新编印制电路板故障排除手册

《新编印制电路板故障排除手册》源明绪言根据目前印制电路板制造技术的发展趋势，印制电路板的制造难度越来越高，品质要求也越来越严格。为确保印制电路板的高质量和高稳定性，实现全面质量管理和环境控制，必须充分了解印制电路板制造技术的特性，但印制电路板制造技术是综合性的技术结晶，它涉及到物理、化学、光学、光化学、高分子、流体力学、化学动力学等诸多方面的基础知识，如材料的结构、成份和性能：工艺装备的精度、稳定性、效率、加工质量；工艺方法的可行性；检测手段的精度与高可靠性及环境中的温度、湿度、洁净度等问题。这些问题都会直接和间接地影响到印制电路板的品质。由于涉及到的方面与问题比较多，就很容易产生形形色色的质量缺陷。为确保“预防为主，解决问题为辅”的原则的贯彻执行，必须认真地了解各工序最容易出现及产生的质量问题，快速地采取工艺措施加以排除，确保生产能顺利地进行。为此，特收集、汇总和整理有关这方面的材料，编辑这本《印制电路板故障排除手册》供同行参考。一、基材部分 1 问题：印制板制造过程基板尺寸的变化原因解决方法（1）经纬方向差异造成基板尺寸变化；由于剪切时，未注意纤维方向，造成剪切应力残留在基板内，一旦释放，直接影响基板尺寸的收缩。(1)确定经纬方向的变化规律，按照收缩率在底片上进行补偿（光绘前进行此项工作）。同时剪切时按纤维方向加工，或按生产厂商在基板上提供的字符标志进行加工（一般是字符的竖方向为基板的纵方向）。（2）基板表面铜箔部分被蚀刻掉对基板的变化限制，当应力消除时产生尺寸变化。（2）在设计电路时应尽量使整个板面分布均匀。如果不可能也要必须在空间留下过渡段（不影响电路位置为主）。这由于板材采用玻璃布结构中经纬纱密度的差异而导致板材经纬向强度的差异。（3）刷板时由于采用压力过大，致使产生压拉应力导致基板变形。（3）应采用试刷，使工艺参数处在最佳状态，然后进行刷板。对薄型基材，清洁处理时应采用化学清洗工艺或电解工艺方法。（4）基板中树脂未完全固化，导致尺寸变化。（4）采取烘烤方法解决。特别是钻孔前进行烘烤，温度1200C、 4小时，以确保树脂固化，减少由于冷热的影响，导致基板尺寸的变形。（5）特别是多层板在层压前，存放的条件差，使薄基板或半固化片吸湿，造成尺寸稳定性（5）内层经氧化处理的基材，必须进行烘烤以除去湿气。并将处理好的基板存放在真空干燥箱内，以免再次吸湿。

HP系统维护命令大全

下面是查看H P小型机的信息的命令集：1、机型 #model 9000/800/L2000-44 注意：其中44是指每个cpu有440MHZ。 2、cpu个数 #top CPU LOAD USER NICE SYS IDLE BLOCK SWAIT INTR SSYS 0 0.02 0.0% 0.0% 0.% 0.0% 0.0% 0.0% 0.0% 1 0.00 0.6% 0.0% 0.% 0.0% 0.0% 0.0% 0.0% 2 0.00 2.% 97.0% 0.0% 0.0% 0.0% 0.0% 3 0.00 0.4% 0.0% 0.0% 99.6% 0.0% 0.0% 0.0% 0.0% 同时显示内存 SWAPINFO 也可显示内存 3、硬盘的大小信息 #diskinfo /dev/rdsk/c1t0d0 SCSI describe of c1t0d0: vendor: SEAGATE product id: ST39204LC type: direct access size: 8891556 Kbytes bytes per sector: 512 4、硬盘的个数 #ioscan -funC disk disk 0 0/0/1/1.0.0 sdisk CLAIMED DEVICE SEAGATE ST39204LC /dev/dsk/c1t0d0 /dev/rdsk/c1t0d0 disk 1 0/0/1/1.2.0 sdisk CLAIMED DEVICE SEAGATE ST39204LC /dev/dsk/c1t2d0 /dev/rdsk/c1t2d0 disk 2 0/0/2/0.0.0 sdisk CLAIMED DEVICE SEAGATE ST39204LC /dev/dsk/c2t0d0 /dev/rdsk/c2t0d0 disk 3 0/0/2/0.2.0 sdisk CLAIMED DEVICE SEAGATE ST39204LC /dev/dsk/c2t2d0 /dev/rdsk/c2t2d0 disk 4 0/0/2/1.2.0 sdisk CLAIMED DEVICE HP DVD-ROM 305 /dev/dsk/c3t2d0 /dev/rdsk/c3t2d0 disk 5 0/4/0/0.8.0 sdisk CLAIMED DEVICE SEAGATE ST39236LC /dev/dsk/c4t8d0 /dev/rdsk/c4t8d0 5、查看操作系统版本和license #uname -a 27 unlimited-user license 6、如何查看内存swapinfo cpu 同样可以显示内存 #dmesg Memory Information: physical page size = 4096 bytes, logical page size = 4096 bytes Physical: 2097152 Kbytes, lockable: 1866308 Kbytes, available: 1902728 Kbyts

(完整版)小型机及存储维保服务方案

XXXX小型机和存储维保服务技术方案 XXXX 2015年5月15日

目录一、专业化第三方服务的需求 _________________________________________________ 2 二、技术服务方案 __________________________________________________________ 4 1．服务对象和目标____________________________________________________________ 4 2．服务内容要点 _____________________________________________________________ 6 3．服务内容要点说明__________________________________________________________ 7 3.1保修期内服务范围_______________________________________________________ 7 3.2服务响应_______________________________________________________________ 8 3.3维护间隔与维护情况汇报_________________________________________________ 8 3.4定期巡检与预防性维护___________________________________________________ 8 3.5免费备件保证___________________________________________________________ 9 3.6免费技术服务___________________________________________________________ 9 3.7免费远程诊断___________________________________________________________10 3.8技术人员保障___________________________________________________________10 3.9保修期终止_____________________________________________________________11 4.服务质量保证______________________________________________________________11 4.1技术服务流程___________________________________________________________11 4.2服务的监督_____________________________________________________________13 4.3紧急事件升级机制_______________________________________________________14 4.4客户满意度调查_________________________________________________________15 4.5备件管理监督___________________________________________________________15 4.6项目组织监督___________________________________________________________15 4.7服务文档管理___________________________________________________________15 4.8服务质量评估___________________________________________________________15 4.9违约赔偿_______________________________________________________________15 4.10保修终止______________________________________________________________16 5.技术服务组织方案___________________________________________________________16 6.备件管理___________________________________________________________________16 6.1备件渠道_______________________________________________________________16 6.2备件管理流程___________________________________________________________16 6.3本项目的备件准备_______________________________________________________17 7．技术培训方案 _____________________________________________________________17 7.1专业培训内容___________________________________________________________17 8．免费的技术增值服务________________________________________________________17 8.1提供系统及应用整合方案_________________________________________________18 8.2出保期后技术支持服务___________________________________________________18

服务器故障排除手册

服务器故障排除手册相比PC而言，服务器出故障的机率是小多了，但是它出故障造成的损失可也大多了。作为服务器维修人员需要了解一些服务器故障恢复的基本知识，知道在维修时可以做些什么来最快速的解决问题也可以减少故障停机时间。本文并不是一本服务器故障解决的完全手册，但如果能够认真的按照下面的步骤维修维护，它也许可以解决大多数问题，但当你做完所有的这一切仍不管用时，不用惭愧，去找维修专家吧，可以放心的是，这些维修步骤不会出现大的损害，最坏的情形是“It does not work at all”。本文主要分三部分，第一部分讲的是服务器故障排除的基本原则性问题。第二部分讲述了一些服务器硬件故障排除的实例。第三部分讲述了一些服务器软件故障排除的实例。第一部分服务器故障排除的基本原则性问题一、服务器开机无显示应怎么办 1.检查供电环境，零-火；零-地电压？ 2.检查电源指示灯，如果亮，正常吗？ 3.按下电源开关时，键盘上指示灯亮吗？风扇全部转动吗？ 4. 是否更换过显示器，更换另一台显示器。 5. 去掉增加内存 6. 去掉增加的CPU 7.去掉增加的第三方I/O卡 8. 检查内存和CPU 插的是否牢靠 9. Clear CMOS 10. 更换主要备件，如系统板，内存和CPU 二、服务器故障排错的基本原则是什么 1. 尽量恢复系统缺省配置 a:硬件配置：去除第三方厂商备件和非标配备件； b:资源配置：清除CMOS，恢复资源初始配置； c: BIOS，F/W，驱动程序：升级最新的BIOS，F/W和相关驱动程序； d: TPL：扩展的第三方的I/O卡属于该机型的硬件兼容列表（TPL）吗？ 2. 从基本到复杂 a:系统上从个体到网络：首先将存在故障的服务器独立运行，待测试正常后再接入网络运行，观察故障现象变化并处理。 b:硬件上从最小系统到现实系统：指从可以运行的硬件开始逐步到现实系统为止。 c: 软件上从基本系统到现实系统：指从基本操作系统开始逐步到现实系统为止。 3. 交换对比 a:在最大可能相同的条件下，交换操作简单效果明显的部件； b: 交换NOS载体，既交换软件环境； c:交换硬件，既交换硬件环境；

HPUX小型机命令

1、机型 #model 9000/800/L2000-44 注意：其中44是指每个cpu有440MHZ。 2、cpu个数 #top CPU LOAD USER NICE SYS IDLE BLOCK SWAIT INTR SSYS 0 0.02 0.0% 0.0% 0.% 0.0% 0.0% 0.0% 0.0% 1 0.00 0.6% 0.0% 0.% 0.0% 0.0% 0.0% 0.0% 2 0.00 2.% 97.0% 0.0% 0.0% 0.0% 0.0% 3 0.00 0.4% 0.0% 0.0% 99.6% 0.0% 0.0% 0.0% 0.0% 3、硬盘的大小信息 #diskinfo /dev/rdsk/c1t0d0 SCSI describe of c1t0d0: vendor: SEAGATE product id: ST39204LC type: direct access size: 8891556 Kbytes bytes per sector: 512 4、硬盘的个数 #ioscan -funC disk disk 0 0/0/1/1.0.0 sdisk CLAIMED DEVICE SEAGATE ST39204LC /dev/dsk/c1t0d0 /dev/rdsk/c1t0d0 disk 1 0/0/1/1.2.0 sdisk CLAIMED DEVICE SEAGATE ST39204LC /dev/dsk/c1t2d0 /dev/rdsk/c1t2d0 disk 2 0/0/2/0.0.0 sdisk CLAIMED DEVICE SEAGATE ST39204LC /dev/dsk/c2t0d0 /dev/rdsk/c2t0d0 disk 3 0/0/2/0.2.0 sdisk CLAIMED DEVICE SEAGATE ST39204LC /dev/dsk/c2t2d0 /dev/rdsk/c2t2d0 disk 4 0/0/2/1.2.0 sdisk CLAIMED DEVICE HP DVD-ROM 305 /dev/dsk/c3t2d0 /dev/rdsk/c3t2d0 disk 5 0/4/0/0.8.0 sdisk CLAIMED DEVICE SEAGATE ST39236LC /dev/dsk/c4t8d0 /dev/rdsk/c4t8d0 5、查看操作系统版本和license #uname -a HP-UX scp1 B.11.00 U 9000/800 1124961527 unlimited-user license 6、如何查看内存 #dmesg Memory Information: physical page size = 4096 bytes, logical page size = 4096 bytes Physical: 2097152 Kbytes, lockable: 1866308 Kbytes, available: 1902728 Kbyts 7、如何查看文件系统 #bdf Filesystem kbytes used avail %used Mounted on

电脑操作简易故障排除手册

电脑操作及简易故障排除手册我们在使用电脑的过程中，经常会遇到这样或是那样的问题，令我们束手无策，即耽误了正常的工作，又破坏了良好的心情。其实，只要正确使用，在使用中总结，不断摸索去你电脑的“脾性”，便会找到一些排除的方法与心得。故初步编写此手册，以指导大家日常正确使用，减少故障，并对简易故障能进行自我排除，以提高工作效率，希望大家在使用中多提宝意见，以便不断修订和完善本手册。第一节：如何正确操作电脑及周边设备： 1、开机时必须“先外设，后主机”，即先开插座电源，再开显示器、打印机等外围设备，最后在开主机；关机时相反“先主机，后外设”，即关闭所有运行程序后，通过开始菜单软关机，完全关机后，再关显示器、打印机等外设。 2、插拔所有外设数据线时，均应在断电情况下进行，防止IC集成电路损坏。 3、在异常情况下需重启动时，应采取软开机，按“复位”开关启动，若实需硬开、关机的，按住主机电源开关10S钟以上，等开、关机灯有反应后再放手。 4、在系统非正常退出或意外断电，应尽快进行硬盘扫描，及时修复错误，因此情况下，硬盘某此簇链接会丢失，给系统造成潜在危险，不及时修复，会导致某此程序紊乱，甚至危及系统的稳定运行，所以开机的时候，应让系统自动走程序，不要按回车键，强制启动，应使电脑自动识别进入修复程序。 5、不能野蛮操作，在电脑故障时，应心平气和，去找原因，进行简单排除，不应施力、频繁地敲打键盘或电脑，防止电脑更严重损坏。 6、定期查杀病毒，进行磁盘整理，清除垃圾文件，进行系统优化。但不建议同时安装一个以上的杀毒软件。 7、注意电脑及周边外设卫生，尤其车间、仓库等，做到防水、防尘，雷雨天注意断开电源。 8、在二个小时以上不使用电脑时，应关机断电，如短时间停用，应使电脑处于休眠或屏保状态。 9、每台电脑均应设置密码，一般情况不允许他人使用，重要帐套或文件也应有密码保护，防止他人无意破坏或机密泄漏，尤其对共享文件一定要设好权限（只读、改写）。 10、如何查看本机的IP地址：

IBM小型机维护指导书

江西建行IBM小型机日常维护第一篇：日常维护部分第二篇：故障处理部分第三篇：安图特公司技术支持电话

第一篇日常维护部分目录第1章AIX系统管理日常工作(检查篇) (1) 1.1 常用的命令 (1) 1.2 语法介绍 (1) 1.2.1 vmstat：检查内存、CPU、进程状态 (1) 1.2.2 .................................... sar：检查CPU、IO 3 1.2.3 PS：检查进程状态命令 (3) 1.2.4 .............................. s vmon：显示进程占用内存 4 1.2.5 .................................. iostat：显示磁盘IO 4 1.2.6 ....................... n etstat, entstat：显示网卡信息 5 1.2.7 ............................... n o：显示tcpip参数设置 6 1.2.8 其它命令 (6) 第2章AIX系统管理日常工作(LV篇) (7) 2.1 IBM AIX系统管理的日常工作 (7) 2.1.1 开关机步骤 (7) 2.1.2 用户组及用户管理 (7) 2.1.3 文件系统维护 (7) 2.1.4 系统日常管理 (8) 2.1.5 系统备份 (8)

2.1.6 定时清洗磁带机 (8) 2.1.7 定时检查设备指示灯状态 (9) 2.1.8 简单故障的判断 (9) 2.1.9 熟悉ibm aix操作系统 (9) 2.2 关于IBM AIX的逻辑卷管理 (9) 2.3 LVM命令 (10) 第3章AIX系统管理日常工作(关键参数检查篇) (13) 3.1 AIO参数检查 (13) 3.2 磁盘阵列QUEUE_DEPTH参数检查 (14) 3.3 用户参数检查 (14) 3.4 激活SSA F AST-W RITE C ACHE (15) 3.5 IO参数设置 (15) 3.6 SYNCD DAEMON的数据刷新频率 (15) 3.7 检查系统硬盘的镜像 (15) 第4章AIX系统管理日常工作（性能分析篇） (17) 4.1 性能瓶颈定义 (17) 4.2 性能范围 (17) 第5章AIX系统管理日常工作(SHUTDOWN篇) (18) 5.1 概念 (18) 5.2 关机命令 (18) 第6章AIX系统管理日常工作（备份与恢复篇） (18) 6.1 用SMIT备份 (18) 6.2 手工备份 (18) 6.3 恢复系统 (19) 第7章HACMP的双机系统的管理和维护 (19) 7.1 HACMP双机系统的启动 (19) 7.2 HACMP双机系统的关闭 (20)

IT运维手册(故障及处理)(完整资料).doc

【最新整理，下载后即可编辑】 IT运维手册第二篇硬件篇一计算机章㈤常见问题 1主机 ⑴无法正常开机 ①硬盘灯亮多为显示器或LCD排线问题，可插入系统引导盘看有无反应，若无反应，则为硬件问题，建议售后处理；若有反应，则为软件问题，可重装系统。 ②硬盘灯不亮 I电源问题需更换电源和电池，多为电源适配器或电池损坏造成的提供电压不稳。可更换同型号电源线，排查故障。 II内存问题拔插内存条或更换插槽。可能是内存条松动或自配内存条不兼容造成，若因不兼容，可通过更改BIOS设置解决。 III灰尘问题笔记本长期不清洗，积压过多灰尘会造成静电或短路，可拆开外壳用吹风机清理灰尘。 IV主板问题主板问题是造成不能开机最大可能因素，主板为集成电路，任何地方损坏都会造成硬盘无法通电，从而不能开机，建议去售后处理。 ⑵无法正常上网 ①网络设置问题此原因较多出现于需手动指定IP、网关、DNS服务器联网方式下，及使用代理服务器上网的，应仔细检查计算机的网络设置。 ②DNS服务器的问题 I当IE无法浏览网页时，可先尝试用IP地址来访问，如果可

以访问，则为DNS的问题，造成DNS的问题可能是联网时获取DNS出错或DNS服务器本身问题，可手动指定DNS服务（地址可以是当地TSP提供的DNS服务器地址，也可用其它地方可正常使用DNS服务器地址。在网络的属性里进行（控制面板-网络和拨号连接-本地属性-TCP/IP协议-属性-使用下面的DNS服务器地址）。不用的ISP有不同的DNS地址。有时候则是路由器或网卡的问题，无法与ISP的DNS服务连接，这种情况可重启路由器或重新设置路由器。 II本地DNS缓存出现问题，为提高网站访问速度，系统会自动将已经访问过并获取IP地址的网站存入本地DNS缓存里，一旦继续访问此网站，则不再通过DNS服务器而直接从本地DNS缓存取出该网站的IP地址进行访问。所以，如果本地DNS缓存出现问题，会导致网站无法访问。可以在“运行”中执行ipconfig /flushdns 来重建本地DNS缓存。 ③IE浏览器本身的问题 IE浏览器本身出现故障或IE被恶意修改破坏都会导致无法浏览网页，可尝试用上网助手“IE修复专家”来修复或者重装IE浏览器。 ④网络防火墙问题如果网络防火墙设置不当，如安全等级过高、不小心把IE放进了阻止访问列表、错误的防火墙策略等，可尝试检查策略、降低防火墙安全等级或直接关掉试试是否恢复正常。 2显示器 ⑴无图像显示 ①开机无反应 I检查电脑的外部接线是否接好，把各个连线重新插一遍，看故障是否排除。 II如果故障依旧，接着打开主机箱查看机箱内有无多余金属物，或主板变形造成的短路，闻一下机箱内有无烧焦的糊味，主板上有无烧毁的芯片，CPU周围的电容有无损坏等。 III如果没有，接着清理主板上的灰尘，检查显卡等硬件是否