文档库 最新最全的文档下载
当前位置:文档库 › 服务器应急处置预案

服务器应急处置预案

服务器应急处置预案
服务器应急处置预案

服务器应用系统应急预案

1. 服务器应用系统出现故障

(1) 当服务器应用系统出现故障,系统管理员应当立即初步确定故障的严重程

度,估计出现故障的应用系统故障排除需要的时间,并根据应用系统需要保障的无故障运行时间,采取不同的应用系统恢复策略。

(2) 如果应用系统不能停机,立即启用热备份系统进行工作。如果业务系统不能停机,而故障又可以在10分钟之内排除,那么系统管理员立即排除故障,恢复系统正常运行。业务系统可以停机而故障又可以在2小时内排除,应该断开服务器的网络连接,处理服务器故障,尽快排除故障,恢复系统运行。应用系统可以停机但故障排除不能在2 小时之内完成,而业务系统有冷备份系统,应该断开服务器的网络连接,通知系统管理员启动冷备份系统,完成业务系统的安装、设置,并进行数据的恢复,保证系统正常运行。业务系统可以停机,而又没有冷备份的业务系统,那么系统管理员备份现有系统的数据和程序,如果不能进行备份系统的数据和程序,系统管理员在确定了业务系统有之前备份的情况下,重新修复或安装操作系统,并重新安装或修复业务系统并恢复最新备份的数据。如果备份丢失或不存在,系统管理员应该报告分管经理,并求助技术支持商,完成对硬盘数据的恢复。

(3) 系统管理员在业务系统出现故障时,应该及时查找本地的数据备份,本地的数据备份损坏或丢失,应该立即从异地数据备份复制业务系统的数据备份到本地。

(4) 系统管理员应在确认安全的情况下,重新启动故障服务器系统;重启系统成功,则检查数据丢失情况,利用备份数据恢复;若重启失败,立即联系相关厂商和技术支持,请求援助,分析故障原因,若经设备厂商或技术支持认定是硬件损坏,那么需要请求厂商更具维修协议,进行保修或维修。在服务器硬件正常的情况下,尽快做好系统软件的恢复或

重新安装,之后再进行业务系统的恢复或重新安装,再进行业务系统的数据恢复,业务系统完全恢复正常运行后,重新启用恢复的业务系统服务器,再将备用系统停掉。

(5)应急预案技术措施,如果出现网络病毒,黑客攻击等,系统管理员采用瑞星杀毒软件或卡巴斯基杀毒软件和360 木马查杀工具等,对整个计算机进行杀毒。对不能确定是否为病毒的文件。如果出现不良信息,系统管理员程要设法找到不良信息的文件或不良信息存在数据库中的位置,对非法信息,进行手工删除,或编程删除,若不能清除,采用程序和数据备份进行恢复。

2 、软件系统故障应急预案

(1)发生服务器软件系统故障后,系统管理员应立即对服务器进行查看,分析故障原

因,采取并及时报告分管经理;同时安排将故障服务器脱离网络,保存系统状态不变,取出系统镜像备份磁盘,保持原始数据,按照系统恢复应急预案进行。

(2)处置结束后, 系统管理员应将事发经过、处置结果等在调查工作结束后一日内报告分管经理。

(3)技术措施:系统管理员在故障发生后立即查看服务器系统状态,如果是

系统软件出现故障,并且能进入系统,且可以清晰定位故障原因,并可以立即排除,那么立即进行排除。如果估计在3 小时之内都不能定位故障原因,那么报告分管经理,请求系统软件厂商及技术支持协助排除,或根据技术支持的建议进行重新安装操作系统和业务系统。排除操作系统故障的方法,检查操作系统进程是否都正常,有无非法进程,操作系统文件有无损坏丢失,是否受到病毒和木马程序侵害,黑客攻击。如果不是操作系统故障,应该只是对业务系统进行检查,检查方法,查看业务系统代码和数据是否被破坏,损坏,丢失,如果丢失,从正确的备份进行恢复。

3 、服务器硬件故障应急预案

(1)发生服务器设备硬件故障后,系统管理员应及时报告分管经理,并组织查找、确定故障设备及故障原因,进行先期处置。

(2)根据系统恢复应急预案,确定故障的服务器上的业务系统的应急恢复措施。

(3)处置结束后, 系统管理员应将事发经过、处置结果等在调查工作结束后一日内报告分管经理。

(4)技术措施:初步判断硬件故障的方法,观察系统能否正常启动,记录启动时显示器屏幕上的提示信息,记录服务器状态指示灯状态,记录系统状态显示屏上的信息,系统管理员初步判断服务器硬件故障后,咨询硬件厂商、技术支持确定硬件故障的具体原因和故障部件,并联系进行维修。

4、业务数据损坏应急预案

⑴ 发生业务数据损坏时,系统管理员应及时报告信息分管经理,检查、备份业务系统当前

数据。

⑵ 系统管理员负责调用备份服务器备份数据,若备份数据损坏,调用异地备份数据,应

及时完成数据恢复工作。系统管理员应待业务数据系统恢复后检查历史数据和当前数据的差别,由相关系统操作员补录数据;重新备份

数据,并写出故障分析报告,在调查工作结束后一日内报告分管经理

师、我方技术人员、原厂商三方共同组成

-------- ---------- ?

制定处理方案

2.

应急小 —■,确定硬件'、软件方面故障,研究可操作性,分

过程各 敲围,制定事件处理方案析各如需更换硬件应急小组讨论通过后 制定 紧急采 购方案,以上方案制定后组内报各级领导审核通过 3?待领 导审核通过后对服务器数据应急备份' 制定操作方案 ,组织实施维护主管审核(末通过将重新制 定方 案), 实施过程中如发生意外事件 应立即上报分(管经理,分析出现原因,及时处理意外事 通过 分管经理审核 件。 I 确定维护方案 4.维护 否 J 方案完成后核查突发事件是否处理完成,如已经处理结束^视情况决定是否需要还原 总经理审核 数据, 并将事件记录存档,如末完成,再次分析原因,重新制定操作方案 ? 实施过程中 故障能否成功处理 *制定意外处 如必要还原备份 I 整理存档

.还原备份

操作说明联系运维方 突发事件发生 通知服务器

________________ j

1?发生突发事件后立即通知服务方和服务器原厂商 ,成立应急小组,该小组由服务方工程

析处理

流程图

服务器应急预案

服务器应用系统应急预案 1. 服务器应用系统出现故障 (1)当服务器应用系统出现故障,系统管理员应当立即初步确定故障的严重程度,估计出现故障的应用系统故障排除需要的时间,并根据应用系统需要保障的无故障运行时间,采取不同的应用系统恢复策略。 (2)如果应用系统不能停机,立即启用热备份系统进行工作。如果业务系统不能停机,而故障又可以在10分钟之内排除,那么系统管理员立即排除故障,恢复系统正常运行。业务系统可以停机而故障又可以在2小时内排除,应该断开服务器的网络连接,处理服务器故障,尽快排除故障,恢复系统运行。应用系统可以停机但故障排除不能在2小时之内完成,而业务系统有冷备份系统,应该断开服务器的网络连接,通知系统管理员启动冷备份系统,完成业务系统的安装、设置,并进行数据的恢复,保证系统正常运行。业务系统可以停机,而又没有冷备份的业务系统,那么系统管理员备份现有系统的数据和程序,如果不能进行备份系统的数据和程序,系统管理员在确定了业务系统有之前备份的情况下,重新修复或安装操作系统,并重新安装或修复业务系统并恢复最新备份的数据。如果备份丢失或不存在,系统管理员应该报告分管经理,并求助技术支持商,完成对硬盘数据的恢复。 (3)系统管理员在业务系统出现故障时,应该及时查找本地的数据备份,本地的数据备份损坏或丢失,应该立即从异地数据备份复制业务系统的数据备份到本地。 (4) 系统管理员应在确认安全的情况下,重新启动故障服务器系统;重启系统成功,则检查数据丢失情况,利用备份数据恢复;若重启失败,立即联系相关厂商和技术支持,请求援助,分析故障原因,若经设备厂商或技术支持认定是硬件损坏,那么需要请求厂商更具维修协议,进行保修或维修。在服务器硬件正常的情

服务器应急预案

服务器应急预案

服务器应用系统应急预案 1. 服务器应用系统出现故障 (1)当服务器应用系统出现故障,系统管理员应当立即初步确定故障的严重程度,估计出现故障的应用系统故障排除需要的时间,并根据应用系统需要保障的无故障运行时间,采取不同的应用系统恢复策略。 (2)如果应用系统不能停机,立即启用热备份系统进行工作。如果业务系统不能停机,而故障又能够在10分钟之内排除,那么系统管理员立即排除故障,恢复系统正常运行。业务系统能够停机而故障又能够在2小时内排除,应该断开服务器的网络连接,处理服务器故障,尽快排除故障,恢复系统运行。应用系统能够停机但故障排除不能在2小时之内完成,而业务系统有冷备份系统,应该断开服务器的网络连接,通知系统管理员启动冷备份系统,完成业务系统的安装、设置,并进行数据的恢复,保证系统正常运行。业务系统能够停机,而又没有冷备份的业务系统,那么系统管理员备份现有系统的数据和程序,如果不能进行备份系统的数据和程序,系统管理员在确定了业务系统有之前备份的情况下,重新修复或安装操作系统,并重新安装或修复业务系统并恢复最新备份的数据。如果备份丢失或不存在,系统管理员应该报告分管经理,并求助技术支持商,完成对硬盘数据的恢复。 (3)系统管理员在业务系统出现故障时,应该及时查找本地的数据备份,本地的数据备份损坏或丢失,应该立即从异地数据备份复

制业务系统的数据备份到本地。 (4) 系统管理员应在确认安全的情况下,重新启动故障服务器系统;重启系统成功,则检查数据丢失情况,利用备份数据恢复;若重启失败,立即联系相关厂商和技术支持,请求援助,分析故障原因,若经设备厂商或技术支持认定是硬件损坏,那么需要请求厂商更具维修协议,进行保修或维修。在服务器硬件正常的情况下,尽快做好系统软件的恢复或重新安装,之后再进行业务系统的恢复或重新安装,再进行业务系统的数据恢复,业务系统完全恢复正常运行后,重新启用恢复的业务系统服务器,再将备用系统停掉。 (5)应急预案技术措施,如果出现网络病毒,黑客攻击等,系统管理员采用瑞星杀毒软件或卡巴斯基杀毒软件和360木马查杀工具等,对整个计算机进行杀毒。对不能确定是否为病毒的文件。如果出现不良信息,系统管理员程要设法找到不良信息的文件或不良信息存在数据库中的位置,对非法信息,进行手工删除,或编程删除,若不能清除,采用程序和数据备份进行恢复。 2、软件系统故障应急预案 (1)发生服务器软件系统故障后,系统管理员应立即对服务器进行查看,分析故障原因,采取并及时报告分管经理;同时安排将故障服务器脱离网络,保存系统状态不变,取出系统镜像备份磁盘,保持原始数据,按照系统恢复应急预案进行。 (2)处理结束后, 系统管理员应将事发经过、处理结果等在

云平台服务器存储应急预案

云平台服务器存储 应急预案 目录 1目的 (2) 2适用范围 (2) 3规范内容 (2) 3.1故障分类 (2) 3.2应急准备 (2) 3.3具体措施 (2) 4故障处理规范 (3) 4.1机房停电 (3) 4.2主机故障 (3) 4.3存储系统故障 (3) 4.4云平台软件系统故障 (3) 4.5云平台管理服务器故障预防 (4) 4.6云平台日常告警故障排除 (4) 5硬件故障预防与排除 (4) 5.1故障预防 (4) 5.2故障排除 (4) 5.3故障处理 (5)

1 目的 为提高云平台服务器、存储故障处理能力,形成科学、有效、反应迅速的日常管理流程和应急处理机制,确保平台的安全和稳定运行,最大限度地减小故障对生产的影响,降低业务中断风险,特制定本规范。 2 适用范围 本规范适用于提供云计算虚拟化平台服务的服务器、存储管理,应对发生和可能发生的故障。 3 规范内容 服务器运维和应急处理应包括风险评估,检测体系和应急处理三个环节,合理有效的执行控制将防止故障影响扩大。 3.1 故障分类 平台故障包括服务器硬件和存储系统故障;自然灾害(水、火、电等)造成的物理破坏;人为误操作造成的损害等。 3.2 应急准备 部门责任人员明确职责和管理范围,根据实际情况,安排应急值班,确保到岗到人,联络畅通,处理及时准确。 3.3 具体措施 (1)建立安全、可靠、稳定运行的机房环境,防火、防雷电、防水、防静电、防尘;建立备份电源系统。 (2)虚拟化平台服务器应采用可靠、稳定、兼容性硬件,落实责任管理机制,遵守安全操作规范;对虚拟机和管理服务器进行定时备份;采用有效的虚拟化监控工具,及时发现问题和日报告。

云服务器故障应急预案

云服务器故障应急预案 一、目的为了确保云服务器(以下简称云平台)使用过程中遇到突发事件后能正确、有序、高效地进行应急处理,保障工作的正常运转,结合实际,特制定本预案。 二、适用范围 本预案适用于云平台中可能出现的各类突发事件。 三、预案流程云平台服务故障预防措施包括分析风险,建立检测体系,准备应急处理措施,控制影响扩大。 3.1 上报 各部门在云平台使用过程中遇到突发问题导致系统无法正常运转时,报技术部系统对接人确认,情况属实立即报知运维工程师和数据库管理员。 3.2 了解和分析 根据实际情况,技术部安排应急值班(附表1),确保 到岗到人,联络畅通,技术人员即时开展软件的检修工作, 对具体情况进行了解并进行初步判断、处理,并将初步情况上报运维

工程师知晓。 3.3 处理方法 3.3.1 如突发问题为操作系统引起首先由技术人员对突发问题进行分析,确定引起问题的具体原因,如操作系统已无法启动,则由技术人员将具体情况通报运维工程师,进行系统备份恢复,如操作系统可启动,则由技术小组根据实际情况进行妥善快速处理。 3.3.2 如突发问题为软件引起首先由技术人员收集系统日志,对突发问题进行分析,确定引起问题的具体原因,通过讨论确定初步解决方案,并对突发问题进行初步解决,如仍无法解决,则由技术人员备份数据库后,重装云平台解决。 3.3.3 如突发问题为网络引起技术人员先将问题反馈给数据中心运维人员,协调网络管理员进行初步检查后确定问题原因,并在最短时间内给予解决。在事件处理过程中,技术人员要随时将突发问题处理情况上报数据中心运维人员。 3.3.4 如突发问题为数据库引起技术人员先将问题反馈给数据库管理员和服务器运维人员,确定问题。数据库软件本身问题,可切换至实时备份数据库。也可以采用新建立数据库,恢复备份的数据库文件,如果原云服务器都无法恢复,可以采用其他云服务器进行恢复。

系统应急预案

系统应急预案2015年7月

系统名称 涉及部门财务部 人员名称人员所在单位人员联系方式涉 及 人 员 及 联 系 方 式 及 职 责 预案事件描述: 调整失败,可能涉及如下情况: 1)系统崩溃:系统出现重大故障是指所有的客户端程序都不能正常连接到服务器,任何合法的 系统用户都无法正确登录系统,甚至于系统完全崩溃; 2)数据丢失:系统数据丢失状态,如数据库服务出现故障,用户数据丢失,公司现有技术手段 无法恢复; 3)服务停顿:系统服务停顿状态,如系统由于不明原因导致大规模用户无法使用,服务停顿。 4)接口无法正常调用:系统无法正常调用财务管控接口(财务管控接口、ERP RFC接口、ESB)。预案处理要求 1)系统崩溃:停止系统后台服务,防止不知情用户继续投递数据。抓取并保存系统出错信息及 日志文件,简单判断异常部位,通知相关人员到岗,保留现场,分析查找原因。 2)数据丢失:停止服务和后台数据库服务,将剩余用户数据进行备份,抓取并保存系统出错信 息及日志文件,通知相关人员到岗,保留现场,分析查找原因。 3)服务停顿:联系网络管理人员、通知相关人员到岗,从网络和系统两个方面分析查找服务停 顿原因。 4)接口无法正常调用:联系相关接口服务提供方,确认服务是否正常。 注:对故障进行快速处理及归档,争取每次故障修复时间控制在两小时以内。 演练要求 1. 对在线系统不造成影响 2. 在主要系统管理员人员变更和服务器、操作系统、主页发布软件发生变更时要进行演练。 3. 演练前应填写工作单,并对系统做全备份。 4. 演练结束形成演练总结报告。 预案流程说明 一、事件报警与确认:系统人员在对系统进行调整的过程中发现公司系统运行中的异常及其它故障。由运维人员首先确认系统是否发生重大故障,及时通知相应管控经理及信通公司相应负责人,启用预案。 二、系统发生重大故障时,保护故障现场:必须及时采取以下措施,通知系统运维人员及时到场 1.保证服务器不再有任何人进行任何操作

云平台服务器存储应急预案

云平台服务器存储 应急预案

目录 1目的 (3) 2适用范围 (3) 3规范内容 (3) 3.1故障分类 (3) 3.2应急准备 (3) 3.3具体措施 (3) 4故障处理规范 (4) 4.1机房停电 (4) 4.2主机故障 (4) 4.3存储系统故障 (4) 4.4云平台软件系统故障 (4) 4.5云平台管理服务器故障预防 (5) 4.6云平台日常告警故障排除 (5) 5硬件故障预防与排除 (5) 5.1故障预防 (5) 5.2故障排除 (5) 5.3故障处理 (6)

1 目的 为提高云平台服务器、存储故障处理能力,形成科学、有效、反应迅速的日常管理流程和应急处理机制,确保平台的安全和稳定运行,最大限度地减小故障对生产的影响,降低业务中断风险,特制定本规范。 2 适用范围 本规范适用于提供云计算虚拟化平台服务的服务器、存储管理,应对发生和可能发生的故障。 3 规范内容 服务器运维和应急处理应包括风险评估,检测体系和应急处理三个环节,合理有效的执行控制将防止故障影响扩大。 3.1 故障分类 平台故障包括服务器硬件和存储系统故障;自然灾害(水、火、电等)造成的物理破坏;人为误操作造成的损害等。 3.2 应急准备 部门责任人员明确职责和管理范围,根据实际情况,安排应急值班,确保到岗到人,联络畅通,处理及时准确。 3.3 具体措施 (1)建立安全、可靠、稳定运行的机房环境,防火、防雷电、防水、防静电、防尘;建立备份电源系统。 (2)虚拟化平台服务器应采用可靠、稳定、兼容性硬件,落实责任管理机制,遵守安全操作规范;对虚拟机和管理服务器进行定时备份;采用有效的虚拟化监控工具,及时发现问题和日报告。

机房服务器管理应急预案

机房服务器管理应急预案 目录 一. 故障处理流程 (2) 二. 应急预案方案 (4) 三. 预防保障措施 (8) 四. 应急资源配备 (8) 五. 厂家联系人 (8)

一.故障处理流程 (一)系统故障通报与应急恢复 1.当值班人员发现系统故障时,应立即采取应急措施设法恢复故障,并在故障 解决后以邮件方式通知技术中心领导。当故障处理需要技术部门协作时,由值班人员及时通知开发人员。不明确具体协作人员时,可直接联系技术开发部经理。 2.如果故障30分钟内无法解决,值班人员应以手机方式通知公司主要领导,并 通知系统维护人员与相关开发人员到场,一并协调尽快解决问题。 3.故障恢复后30分钟内,由值班人员发出《故障信息单》。通知单内容包括故 障信息、故障恢复信息。(恢复故障指:故障现象得到缓解,系统得到正常运行,但不代表引起故障的原因已明确定位,并彻底解决系统故障隐患。故障恢复后要求进行故障分析与故障纠正预防、彻底解决或减少故障重复发生次数。) 4.系统管理人员在收到《故障信息单》后,及时将故障情况添加到“故障案例” 中,以备日后学习总结。 (二)故障分析、纠正、预防 1.故障恢复后,不代表故障已彻底解决,不会再发生。值班人员、系统管理人 员及相关开发人员,需要对故障产生的原因进行定位,分析,制定彻底纠正、预防故障的解决方案。 2.在故障恢复后的3个工作日内,由系统管理人员负责编写《系统故障分析报 告》。《系统故障分析报告》内容要求含盖故障发生的时间、地点、项目名称、故障描述、处理全过程、影响面大小、故障级别、故障审核等各方面信息,编写人员必须认真填写,以确保数据的准确性和完整性。若在技术上有疑问,可向技术处理协作人员咨询。 3.《系统故障分析报告》要求在故障恢复后的3个工作日内完成,再发给技术 中心各领导知晓,并由专门人员将故障及处理过程录入知识库,以便于共享工作经验,提高故障处理能力与效率。 4.故障若无法制定或实施纠正预防措施,技术部门应做详细的原因说明,同时

云服务器故障应急预案(20200514103833)

云服务器故障应急预案 一、目的 为了确保云服务器(以下简称云平台)使用过程中遇到突发事件后能正确、有序、高效地进行应急处理,保障工作的正常运转,结合实际,特制定本预案。 二、适用范围 本预案适用于云平台中可能出现的各类突发事件。 三、预案流程 云平台服务故障预防措施包括分析风险,建立检测体系,准备应急处理措施,控制影响扩大。 上报 各部门在云平台使用过程中遇到突发问题导致系统无法正常运转时,报技术部系统对接人确认,情况属实立即报知运维工程师和数据库管理员。

了解和分析 根据实际情况,技术部安排应急值班(附表1),确保到岗到人,联络畅通,技术人员即时开展软件的检修工作, 对具体情况进行了解并进行初步判断、处理,并将初步情况 上报运维工程师知晓。 处理方法 如突发问题为操作系统引起 首先由技术人员对突发问题进行分析,确定引起问题的 具体原因,如操作系统已无法启动,则由技术人员将具体情 况通报运维工程师,进行系统备份恢复,如操作系统可启动,则由技术小组根据实际情况进行妥善快速处理。 如突发问题为软件引起 首先由技术人员收集系统日志,对突发问题进行分析, 确定引起问题的具体原因,通过讨论确定初步解决方案,并 对突发问题进行初步解决,如仍无法解决,则由技术人员备 份数据库后,重装云平台解决。

如突发问题为网络引起 技术人员先将问题反馈给数据中心运维人员,协调网络 管理员进行初步检查后确定问题原因,并在最短时间内给予 解决。在事件处理过程中,技术人员要随时将突发问题处理 情况上报数据中心运维人员。 如突发问题为数据库引起 技术人员先将问题反馈给数据库管理员和服务器运维 人员,确定问题。数据库软件本身问题,可切换至实时备份 数据库。也可以采用新建立数据库,恢复备份的数据库文件,如果原云服务器都无法恢复,可以采用其他云服务器进行恢复。 特殊情况处理 准备好阿里云平台的帐号、域名备案、服务器,如遇目 前云平台UCLOUD都无法使用的特殊情况,全部迁移至阿里 云平台。

机房应急预案-详细版

机房应急预案 随着我院信息化建设的不断深入,加强机房各类设备、系统以及信息与网络安全等方面应对突发事件的处理能力将是信息部门目前面临的一项重要任务。 为应对机房可能发生的突发事件,将正在发生或已发生事故的损害程度减轻到最低,确保员工安全,特制定本应急处置预案。 1.1 机房突发事件分类 1.自然灾害:指地震、火灾等因自然因素引起的网络与信息系统的损坏。 2.事故灾难:指电力中断、网络损坏、软件、硬件设备故障等引起的网络与信息系统的损坏。 3.人为破坏:指人为破坏网络线路、通信设施,黑客攻击、病毒攻击、恐怖袭击等引起的网络与信息系统的损坏。 1.2 应急处理人员组织机构 1.3 应急机构人员岗位职责

1、应急总指挥职责 (1)保证在任何时间,及时协调应急行动所有涉及的岗位人员; (2)提供必须的紧急响应设备; (3)在紧急情况下全面负责紧急行动; (4)在必要时向外界求救,例如:119、110、120等。 2、应急副总指挥职责 (1)在总指挥领导下具体开展工作,当总指挥不在时履行总指挥职责; (2)根据获得的应急信息下达命令。 3、各相关设备负责人职责 (1)负责尽快收集信息向应急总指挥汇报事故情况; (2)负责现场临时设备抢救和对事态的控制; (3)听从上级指挥人员的指挥。 1.4 信息与网络安全突发事件处理原则 1.预防为主。立足安全防护,加强预警,重点保护基础信息网络和关系信息安全、稳定的重要信息系统,从预防、监控、应急处理、应急保障等环节,在管理、技术、人员等方面采取多种措施充分发挥各方面的作用,共同构筑信息与网络安全保障体系。 2.快速反应。突发事件发生时,按照快速反应机制,及时获取充分而准确的信息,跟踪研判,果断决策,迅速处置,最大程度地减少危害和影响。 3.分级负责。按照“谁主管,谁负责”的原则,建立和完善安全责任制及联动工作机制。根据各负责人的职能,各司其职,加强各负责人的协调与配合,共同履行应急处置工作的管理职责。 4.以人为本。把保障人员以及公共利益的安全作为首要任务。 5.常备不懈。加强技术储备,规范应急处置措施与操作流程,定期进行预案演练,确保应急预案切实有效,实现网络与信息安全突发公共事件应急处置的科学化、程序化与规范化。

云平台服务器存储应急预案

云平台服务器存储应 急预案

云平台服务器存储 应急预案 目录 1目的 (4) 2适用范围 (4) 3规范内容 (4)

3.1故障分类 (4) 3.2应急准备 (4) 3.3具体措施 (4) 4故障处理规范 (5) 4.1机房停电 (5) 4.2主机故障 (5) 4.3存储系统故障 (5) 4.4云平台软件系统故障 (5) 4.5云平台管理服务器故障预防 (6) 4.6云平台日常告警故障排除 (6) 5硬件故障预防与排除 (6) 5.1故障预防 (6) 5.2故障排除 (6) 5.3故障处理 (7)

1目的 为提高云平台服务器、存储故障处理能力,形成科学、有效、反应迅速的日常管理流程和应急处理机制,确保平台的安全和稳定运行,最大限度地减小故障对生产的影响,降低业务中断风险,特制定本规范。 2 适用范围 本规范适用于提供云计算虚拟化平台服务的服务器、存储管理,应对发生和可能发生的故障。 3 规范内容 服务器运维和应急处理应包括风险评估,检测体系和应急处理三个环节,合理有效的执行控制将防止故障影响扩大。 3.1 故障分类 平台故障包括服务器硬件和存储系统故障;自然灾害(水、火、电等)造成的物理破坏;人为误操作造成的损害等。 3.2 应急准备 部门责任人员明确职责和管理范围,根据实际情况,安排应急值班,确保到岗到人,联络畅通,处理及时准确。 3.3 具体措施 (1)建立安全、可靠、稳定运行的机房环境,防火、防雷电、防水、防静电、防尘;建立备份电源系统。 (2)虚拟化平台服务器应采用可靠、稳定、兼容性硬件,落实责任管理机制,遵守安全操作规范;对虚拟机和管理服务器进行定时备份;采用有效的虚拟化监控工具,及时发现问题和日报告。

服务器管理应急预案

服务器管理应急预案文件编码(GHTU-UITID-GGBKT-POIU-WUUI-8968)

服务器系统故障应急预案 1、服务器应用系统出现故障,系统恢复应急预案 (1)当服务器应用系统出现故障,安全管理员、系统管理员、应用管理员应当立即初步确定故障的严重程度,估计出现故障的应用系统故障排除需要的时间,并根据应用系统需要保障的无故障运行时间,采取不同的应用系统恢复策略。 (2)如果应用系统不能停机,立即启用热备份系统进行工作。 如果应用系统不能停机,而故障又可以在10分钟之内排除,那么安全管理员指导系统管理员和应用管理员立即排除故障,恢复系统正常运行。 应用系统可以停机而故障又可以在2小时内排除,安全管理员,应该断开服务器的网络连接,配合系统管理员和应用管理员,处理服务器故障,尽快排除故障,恢复系统运行。 应用系统可以停机但故障排除不能在2小时之内完成,而应用系统有冷备份系统,安全管理员,应该断开服务器的网络连接,通知系统管理员和应用管理员启动冷备份系统,完成应用系统的安装、设置,并进行数据的恢复,保证系统正常运行。 应用系统可以停机,而又没有冷备份的应用系统,那么安全管理员应该通知系统管理员和应用管理员,备份现有系统的数据和程序,如果不能进行备份系统的数据和程序,安全管理员应该从备份管理员那里得到应用系统的最新备份。安全管理员在确定了应用系统有备份的情况下,通知系统管理员重新修复或安装操作系统,并配合应用管理员重新安装或修复应用系统并恢复最新备份的数据。如果备份丢失或不存在,安全管理员应该报告信息网络事件应急小组,并求助技术支持商,完成对硬盘数据的恢复。 (3)备份管理员在应用系统出现故障时,应该及时查找本地的数据备份,本地的数据备份损坏或丢失,应该立即从异地数据备份复制应用系统的数据备份到本地。

服务器故障应急预案

服务器故障应急预案 目录

服务器故障应急预案 1 目的 为提高信息部处理公司网络通讯畅通,形成科学、有效、反应迅速的应急工作机制,确保网络系统的安全和高效,最大限度地减小通讯故障对生产的影响,保护公司利益,特制定本预案。

2 适用范围 本预案适用于公司网络中所有通讯。 3 预防机制 通讯故障预防措施包括分析风险,建立检测体系,准备应急处理措施,控制影响扩大。服务器故障分类 通讯故障主要包括外网的中断,服务器硬件或软件的故障;自然灾害(水、火、电等)造成的物理破坏;电脑病毒等恶意代码危害等。 应急准备 信息中心相关工作人员明确职责和管理范围,根据实际情况,安排应急值班,确保到岗到人,联络畅通,处理及时准确。 具体措施 (1)建立安全、可靠、稳定运行的机房环境,防火、防雷电、防水、防静电、防尘;建立备份电源系统。 (2)服务器采用可靠、稳定硬件,落实数据备份机制,遵守安全操作规范;安装有效的防病毒软件,及时更新升级扫描引擎。 4 有关应急预案 外网中断应急预案

(1)当外网中断时,公司有2条备用线路可供使用,确保外网畅通。 服务器硬件的故障应急预案。 (1)核心服务器双机配置,配置好备用服务器,随时待命。 (2)发生服务器硬件故障后,相关人员应及时查找、确定故障原因,进行先期处置。若故障服务器在短时间内无法修复,相关人员应启动备用服务器,保持局域网系统的正常运行;将故障服务器脱离网络,进行故障排除工作。 (3)服务器硬件故障预防与排除参考附件1。 服务器软件系统故障应急预案 (1)做好服务器软件系统的定时备份,系统崩溃后,能够及时恢复系统。 (2)发生服务器软件系统故障后,相关人员应检查出现故障的原因并尽快排除。 (3)如遇服务器系统崩溃,应启用备份系统进行恢复。 (4)服务器软件故障预防与排除参考附件2。 自然灾害应急预案 (1)发生机房漏水时,计算机管理员第一时间联系有关人员进行处理,并及时清除积水。 (2)若空调系统出现渗漏水,相关人员立即通知相关管理人员进行处理,并及时清除机房积水。

云平台服务器存储应急预案

云平台服务器存储应急预 案 Prepared on 22 November 2020

云平台服务器存储 应急预案 目录

1 目的 为提高云平台服务器、存储故障处理能力,形成科学、有效、反应迅速的日常管理流程和应急处理机制,确保平台的安全和稳定运行,最大限度地减小故障对生产的影响,降低业务中断风险,特制定本规范。 2 适用范围 本规范适用于提供云计算虚拟化平台服务的服务器、存储管理,应对发生和可能发生的故障。 3 规范内容 服务器运维和应急处理应包括风险评估,检测体系和应急处理三个环节,合理有效的执行控制将防止故障影响扩大。 3.1 故障分类 平台故障包括服务器硬件和存储系统故障;自然灾害(水、火、电等)造成的物理破坏;人为误操作造成的损害等。 3.2 应急准备 部门责任人员明确职责和管理范围,根据实际情况,安排应急值班,确保到岗到人,联络畅通,处理及时准确。 3.3 具体措施 (1)建立安全、可靠、稳定运行的机房环境,防火、防雷电、防水、防静电、防尘;建立备份电源系统。 (2)虚拟化平台服务器应采用可靠、稳定、兼容性硬件,落实责任管理机制,遵守安全操作规范;对虚拟机和管理服务器进行定时备份;采用有效的虚拟化监控工具,及时发现问题和日报告。

4 故障处理规范 4.1 机房停电 接到停电通知后,相关人员应及时部署应对具体措施,启动备用电源,保证服务器正常运行。 4.2 主机故障 (1)平台服务器出现硬件告警需要停机维护,服务器责任人应立即通知相关人员,将业务虚机迁移到集群中其他服务器主机上,再将故障服务器切换至维护模式并从HA集群中移除,负责陪同硬件厂家现场更换至成功恢复。 (2)若服务器硬件24小时内无法恢复,服务器责任人需书面报告原因并立即通知业务管理人员进行数据应急备份,防止灾难扩大。 (3)若虚拟化存储硬件出现告警,第一目击人应立即通知存储管理员,并上报主管领导,存储管理员应在报告1小时内联系厂家到场处理,处理完成后因报告原因,找到解决方法;并立即对数据做完整性检查,消除重复发生隐患。 4.3 存储系统故障 (1)做好存储系统的定时备份,一旦出现数据损坏、丢失,能够及时恢复系统。 (2)发生存储系统故障后,相关人员应检查出现故障的原因并尽快排除。 (3)如遇系统崩溃,数据丢失,应启用备份文件进行数据恢复。 4.4 云平台软件系统故障 (1)日常做好虚拟机的定时备份和快照,系统崩溃后,能够及时恢复虚拟机。 (2)发生虚拟机系统故障后,相关人员应及时通知业务人员检查出现故障的原因并尽快排除。

软件系统故障应急预案

服务器软件系统故障应急预案 发生紧急故障时的判断及处理: 发生服务器软件系统故障后,客户如果未签订服务器系统维护协议,在服务器重启未能解决的情况下,通知客户经理和客户自行处理。若已经签订服务器系统维护协议的客户,服务器管理员应立即对服务器进行查看,分析故障原因,采取相应措施;必要时,保存系统状态不变,取出系统镜像备份磁盘,保持原始数据,进行快速恢复。如果没有恢复磁盘,应优先检查故障原因进行解决,如果无效,再客户同意的情况下以最新数据备份恢复的方式进行或采取其他措施。 服务器软件故障范畴: 服务器软件故障包括:操作系统故障,应用软件故障,病毒黑客攻击等。 其他注意事项: 事态或后果严重的,及时上报公司领导。 处置结束后, 系统管理员应将事发经过、处置结果等结束后一日内备案存档。 采取的技术措施: 在故障发生后立即查看服务器系统状态,如果是系统软件出现故障,并且能进入系统,且可以清晰定位故障原因,并可以立即排除,那么立即进行排除。如果估计在1小时之内都不能定位故障原因,那么报告客户经理和客户,同时联系厂商及技术支持协助排除,或根据技术支持的建议进行重新安装操作系统和应用系统。排除操作系统故障的方法,检查操作系统进程是否都正常,有无非法进程,操作系统文件有无损坏丢失,是否受到病毒和木马程序侵害,黑客攻击。

如果不是操作系统故障,应该对应用系统进行仔细检查,检查方法,查看应用系统代码和数据是否被破坏,损坏,丢失,如果丢失,从正确的备份进行恢复。 平时需做的准备工作: A、操作系统和相关配置定期备份。 B、相关应用系统及数据定期备份。 C、必要的情况下准备备用域名。 D、确保备份数据做到三方备份(本地服务器,其他服务器, 异地服务器)。 E、做好备用服务器的搭建及定期测试。 成立应急预案小组成员及分工: 杨胜灵负责整体技术把控、技术支持及开发人员临时紧急调配。 孙道斌负责网站、网站设计相关技术支持及设计人员临时紧急调配。 宫元负责客户、域名及域名解析相关事宜。 李俊负责机房及服务器相关技术整体把控,相关维护管理人员的临时紧急调配。 张尊园负责电信及电信危机公关的处理。

服务器故障应急预案

服务器故障应急预案 Emergency plan for server failure 汇报人:JinTai College

服务器故障应急预案 前言:本文档根据题材书写内容要求展开,具有实践指导意义,适用于组织或个人。便于学习和使用,本文档下载后内容可按需编辑修改及打印。 昨日携程旅行网站打不开服务器故障,相信大家也看到 携程科技大楼彻夜明灯加紧整修的壮观场景,那么对于服务器宕机怎么办?本文小泰就来教一下大家服务器故障应急预案。 首先分清导致服务器出故障的因素: 1、外部攻击 2、内部攻击 3、运维误操作 服务器宕机怎么办?服务器故障应急预案 不管是外部攻击还是内部故障,备份好以及冗余措施, 可以使宕机时间缩短到最低。 备份问题尽管听起来不可思议,但在实践中,不少企业 并未建立起一套检验过的备份系统。备份的意义在于危急时刻可以快速恢复或重建生产系统。在企业网络中,经常出现的问题实际上是:

备份步骤的瑕疵导致并未完成正确的备份过程 由于有限的存储空间导致一定时间后因存储空间耗尽导致的随后备份失败 备份介质受损导致无法成功恢复 传统上,磁带因其低造价以及高存储密度使其成为了理想的备份介质。然而,这种传统备份介质的几个致命缺点经常使其内含的数据变得不可存取: 丢失的磁带索引卡片 磁带介质在存储过程中容易受到外界磁场影响 介质本身损坏 介质读取过程中被读取设备损坏 此外,磁带备份介质本身存储在磁带仓库中,从仓库检索所需的备份磁带、转移至数据中心并重新加载数据的时间消耗通常也是客观的。 即使有一套备份系统仍然是不能抵挡所有的意外事故的。2014 年, Samsung 数据中心的.一场大火使其云服务暂停服务。如果没有异地备份,这场大火将使其本地备份的恢复变得极为困难。

服务器故障应急预案

服务器故障应急预案

目录 1 目的 (3) 2 适用范围 (3) 3 预防机制 (3) 3.1 服务器故障分类 (3) 3.2 应急准备 (4) 3.3 具体措施 (4) 4 有关应急预案 (4) 4.1 外网中断应急预案 (4) 4.2服务器硬件的故障应急预案 (4) 4.4 服务器软件系统故障应急预案 (5) 4.5 自然灾害应急预案 (5) 服务器硬件故障预防与排除 (5) 1 故障预防 (5) 2 故障排除 (6) 服务器软件故障预防与排除 (6) 1 故障预防 (6) 2 故障排除 (6)

服务器故障应急预案 1 目的 为提高信息部处理公司网络通讯畅通,形成科学、有效、反应迅速的应急工作机制,确保网络系统的安全和高效,最大限度地减小通讯故障对生产的影响,保护公司利益,特制定本预案。 2 适用范围 本预案适用于公司网络中所有通讯。 3 预防机制 通讯故障预防措施包括分析风险,建立检测体系,准备应急处理措施,控制影响扩大。 3.1 服务器故障分类

通讯故障主要包括外网的中断,服务器硬件或软件的故障;自然灾害(水、火、电等)造成的物理破坏;电脑病毒等恶意代码危害等。 3.2 应急准备 信息中心相关工作人员明确职责和管理范围,根据实际情况,安排应急值班,确保到岗到人,联络畅通,处理及时准确。 3.3 具体措施 (1)建立安全、可靠、稳定运行的机房环境,防火、防雷电、防水、防静电、防尘;建立备份电源系统。 (2)服务器采用可靠、稳定硬件,落实数据备份机制,遵守安全操作规范;安装有效的防病毒软件,及时更新升级扫描引擎。 4 有关应急预案 4.1 外网中断应急预案 (1)当外网中断时,公司有2条备用线路可供使用,确保外网畅通。4.2服务器硬件的故障应急预案。 (1)核心服务器双机配置,配置好备用服务器,随时待命。 (2)发生服务器硬件故障后,相关人员应及时查找、确定故障原因,进行先期处置。若故障服务器在短时间内无法修复,相关人员应启动备用服务器,保持局域网系统的正常运行;将故障服务器脱离网络,进行故障排除工作。 (3)服务器硬件故障预防与排除参考附件1。

服务器管理应急预案

服务器系统故障应急预案 1、服务器应用系统出现故障,系统恢复应急预案 (1)当服务器应用系统出现故障,安全管理员、系统管理员、应用管理员应当立即初步确定故障的严重程度,估计出现故障的应用系统故障排除需要的时间,并根据应用系统需要保障的无故障运行时间,采取不同的应用系统恢复策略。 (2)如果应用系统不能停机,立即启用热备份系统进行工作。 如果应用系统不能停机,而故障又可以在10分钟之内排除,那么安全管理员指导系统管理员和应用管理员立即排除故障,恢复系统正常运行。 应用系统可以停机而故障又可以在2小时内排除,安全管理员,应该断开服务器的网络连接,配合系统管理员和应用管理员,处理服务器故障,尽快排除故障,恢复系统运行。 应用系统可以停机但故障排除不能在2小时之内完成,而应用系统有冷备份系统,安全管理员,应该断开服务器的网络连接,通知系统管理员和应用管理员启动冷备份系统,完成应用系统的安装、设置,并进行数据的恢复,保证系统正常运行。 应用系统可以停机,而又没有冷备份的应用系统,那么安全管理员应该通知系统管理员和应用管理员,备份现有系统的数据和程序,如果不能进行备份系统的数据和程序,安全管理员应该从备份管理员那里得到应用系统的最新备份。安全管理员在确定了应用系统有备份的情况下,通知系统管理员重新修复或安装操作系统,并配合应用管

理员重新安装或修复应用系统并恢复最新备份的数据。如果备份丢失或不存在,安全管理员应该报告信息网络事件应急小组,并求助技术支持商,完成对硬盘数据的恢复。 (3)备份管理员在应用系统出现故障时,应该及时查找本地的数据备份,本地的数据备份损坏或丢失,应该立即从异地数据备份复制应用系统的数据备份到本地。 (4) 系统管理员和应用管理员应在确认安全的情况下,重新启动故障服务器系统;重启系统成功,则检查数据丢失情况,利用备份数据恢复;若重启失败,立即联系相关厂商和技术支持,请求援助,分析故障原因,若经设备厂商或技术支持认定是硬件损坏,那么需要请求厂商更具维修协议,进行保修或维修。在服务器硬件正常的情况下,尽快做好系统软件的恢复或重新安装,之后再进行应用软件的恢复或重新安装,再进行应用系统的数据恢复,应用系统完全恢复正常运行后,重新启用恢复的应用系统服务器,再将备用系统停掉。 2、不良信息和网络病毒事件应急预案 (1)发现不良信息或网络病毒时,系统管理员应立即断开网线,终止不良信息或网络病毒传播,并报告信息网络事件应急小组。 (2)安全管理员应采取隔离网络等措施,协助系统管理员和应用管理员及时杀毒、排除不良信息、追查不良信息来源,并估计出故障排除的时间,然后根据服务器应用系统的重要级别,采取不同的措施。 (3)事态或后果严重的,信息网络事件应急小组应及时报告上级主管领导。 (4)处置结束后,安全管理员和事发部门应将事发经过、造成影

云平台服务器存储应急预案

云平台服务器存储应急预 案 This manuscript was revised by the office on December 10, 2020.

云平台服务器存储 应急预案 目录

1目的 为提高云平台服务器、存储故障处理能力,形成科学、有效、反应迅速的日常管理流程和应急处理机制,确保平台的安全和稳定运行,最大限度地减小故障对生产的影响,降低业务中断风险,特制定本规范。 2适用范围 本规范适用于提供云计算虚拟化平台服务的服务器、存储管理,应对发生和可能发生的故障。 3规范内容 服务器运维和应急处理应包括风险评估,检测体系和应急处理三个环节,合理有效的执行控制将防止故障影响扩大。 3.1故障分类 平台故障包括服务器硬件和存储系统故障;自然灾害(水、火、电等)造成的物理破坏;人为误操作造成的损害等。 3.2应急准备 部门责任人员明确职责和管理范围,根据实际情况,安排应急值班,确保到岗到人,联络畅通,处理及时准确。 3.3具体措施 (1)建立安全、可靠、稳定运行的机房环境,防火、防雷电、防水、防静电、防尘;建立备份电源系统。 (2)虚拟化平台服务器应采用可靠、稳定、兼容性硬件,落实责任管理机制,遵守安全操作规范;对虚拟机和管理服务器进行定时备份;采用有效的虚拟化监控工具,及时发现问题和日报告。

4故障处理规范 4.1机房停电 接到停电通知后,相关人员应及时部署应对具体措施,启动备用电源,保证服务器正常运行。 4.2主机故障 (1)平台服务器出现硬件告警需要停机维护,服务器责任人应立即通知相关人员,将业务虚机迁移到集群中其他服务器主机上,再将故障服务器切换至维护模式并从HA集群中移除,负责陪同硬件厂家现场更换至成功恢复。 (2)若服务器硬件24小时内无法恢复,服务器责任人需书面报告原因并立即通知业务管理人员进行数据应急备份,防止灾难扩大。 (3)若虚拟化存储硬件出现告警,第一目击人应立即通知存储管理员,并上报主管领导,存储管理员应在报告1小时内联系厂家到场处理,处理完成后因报告原因,找到解决方法;并立即对数据做完整性检查,消除重复发生隐患。 4.3存储系统故障 (1)做好存储系统的定时备份,一旦出现数据损坏、丢失,能够及时恢复系统。 (2)发生存储系统故障后,相关人员应检查出现故障的原因并尽快排除。 (3)如遇系统崩溃,数据丢失,应启用备份文件进行数据恢复。 4.4云平台软件系统故障 (1)日常做好虚拟机的定时备份和快照,系统崩溃后,能够及时恢复虚拟机。 (2)发生虚拟机系统故障后,相关人员应及时通知业务人员检查出现故障的原因并尽快排除。

服务器硬件故障应急预案

服务器硬件故障应 急预案

服务器故障应急预案 有关应急预案 1 服务器硬件故障应急预案 (1)核心服务器双机配置,配置好备用服务器,随时待命。 (2)发生服务器硬件故障后,相关人员应及时查找、确定故障原因,进行先期处理。若故障服务器在短时间内无法修复,相关人员应启动备用服务器,保持局域网系统的正常运行;将故障服务器脱离网络,进行故障排除工作。 2 服务器软件系统故障应急预案 (1)做好服务器软件系统的定时备份,系统崩溃后,能够及时恢复系统。 (2)发生服务器软件系统故障后,相关人员应检查出现故障的原因并尽快排除。 (3)如遇服务器系统崩溃,应启用备份系统进行恢复。 服务器硬件故障预防与排除 1 故障预防 准备相应的应急备用服务器。当服务器出现不可恢复的硬件故障时,马上启动备用服务器,从而减小服务器硬件故障风险。

2 故障排除 当服务器出现硬件故障,经过以下步骤排除: (1)确定故障原因。依次查看电源、硬盘、内存、主板、处理器等,如条件许可,可使用替换法检测各硬件。 (2)恢复固件缺省配置。比如去除第三方厂商备件和非标配备件;清除CMOS,恢复资源初始配置。 3、故障处理 (1)硬盘故障处理:当硬盘出现黄灯提示预警时,应先查看硬盘数据是否丢失,如数据存在应先做好数据备份,将此服务器各应用迅速转移,然后排查报警具体原因,如由于错误操作或硬盘连接不好引起的报警,可尝试重启服务器,重新插拔硬盘等操作即可解决问题。如硬盘损坏,应及时将备用硬盘替换下故障硬盘,使服务器恢复正常工作。排查过程中,如不能正确判断问题原因,不能随便操作,可向IBM售后服务咨询处理。 (2)内存故障:由于我们的服务器有多组内存,单条内存故障时,会对服务器性能稍有影响,当不会影响整体使用,因此如发现内存条损坏时,安排时间将损坏的内存条替换掉即可(3)RAID卡故障:服务器的RAID卡出现故障时,系统会无法识别出硬盘,服务器不能正常使用,因此应第一时间启动备用服务器。将故障服务器移出生产网络后更换RAID卡,RAID卡经过硬盘重新读取RAID配置信息后即可恢复使用!

运维故障应急预案

运维故障应急预案 V 1.0 深圳市XX科技有限公司 修订记录 1 机房失火,断电,断网 1.1 紧急预案 1)全国各区域陆续反馈访问网站出现无法访问。 2)运维人员通过监控状态,无法远程登录服务器,ping不通服务器。并紧急联系机房人员,询问初步情况,则可判断是否出现机房失火,断电,断网。 3)技术部给业务部门、市场部门以及相关领导发出网站异常的通告,通告分为两部分。一部分是对公司内的通告,包括事故的影响、恢复的时间;一部分是对公司外,描述因为系统升级,而导致网站不能访问。 4)再次紧急联系机房供应商,询问故障的发生原因,故障的严重性,是否后续能正常恢复

服务。 5)如故障严重,先能否挽救服务器,以存储服务器为优先。若存储服务器受损,则想办法恢复数据;若无法恢复数据,则修改通告内容,告知业务部门要重新导入全部数据。 6)视故障影响范围,统计出未受影响的服务器。 7)如果是机房失火,断电,断网导致机房不可用,则尽快联系新的机房,开始重新搭建服务。 8)评估网站恢复的时间点,修改通告内容。 1.2 风险预防 杭州和深圳均实施数据跨机房备份。 2. 区域性网络故障问题 1.1 紧急预案 1)全国某个区域短时间内有多个客户反映无法访问网站,其他区域访问正常。 2)运维人员通过监控状态,远程登录服务器查看机房服务器服务状态,判断是否存在服务异常。 3)如机房服务正常,运维人员测试出现故障区域的网络连接与dns解析是否正常。 4)如果网络连接或者dns解析不正常,则可认为出现了区域性网络故障问题。 5)给业务部门、市场部门以及相关领导发出网站异常的通告,通告分为两部分。一部分是对公司内的通告,包括事故的影响、恢复的时间;一部分是对公司外受影响的区域客户,

服务器故障应急预案

服务器故障应急预案 Prepared on 22 November 2020

服务器故障应急预案 目录 服务器故障应急预案

1 目的 为提高信息部处理公司网络通讯畅通,形成科学、有效、反应迅速的应急工作机制,确保网络系统的安全和高效,最大限度地减小通讯故障对生产的影响,保护公司利益,特制定本预案。 2 适用范围 本预案适用于公司网络中所有通讯。 3 预防机制 通讯故障预防措施包括分析风险,建立检测体系,准备应急处理措施,控制影响扩大。 服务器故障分类 通讯故障主要包括外网的中断,服务器硬件或软件的故障;自然灾害(水、火、电等)造成的物理破坏;电脑病毒等恶意代码危害等。 应急准备 信息中心相关工作人员明确职责和管理范围,根据实际情况,安排应急值班,确保到岗到人,联络畅通,处理及时准确。 具体措施

(1)建立安全、可靠、稳定运行的机房环境,防火、防雷电、防水、防静电、防尘;建立备份电源系统。 (2)服务器采用可靠、稳定硬件,落实数据备份机制,遵守安全操作规范;安装有效的防病毒软件,及时更新升级扫描引擎。 4 有关应急预案 外网中断应急预案 (1)当外网中断时,公司有2条备用线路可供使用,确保外网畅通。 服务器硬件的故障应急预案。 (1)核心服务器双机配置,配置好备用服务器,随时待命。 (2)发生服务器硬件故障后,相关人员应及时查找、确定故障原因,进行先期处置。若故障服务器在短时间内无法修复,相关人员应启动备用服务器,保持局域网系统的正常运行;将故障服务器脱离网络,进行故障排除工作。 (3)服务器硬件故障预防与排除参考附件1。 服务器软件系统故障应急预案 (1)做好服务器软件系统的定时备份,系统崩溃后,能够及时恢复系统。 (2)发生服务器软件系统故障后,相关人员应检查出现故障的原因并尽快排除。 (3)如遇服务器系统崩溃,应启用备份系统进行恢复。 (4)服务器软件故障预防与排除参考附件2。 自然灾害应急预案

相关文档