当前位置：文档库 › 【项目管理】数据库项目组日常运维及应急故障处理手册

【项目管理】数据库项目组日常运维及应急故障处理手册

常见问题及处理方案

CPU使用率高的问题

通过操作系统命令top topas glance等查看top进程号，确认是系统进程还是oracle应用进程，查询当前top进程执行的操作和sql语句进行分析。

根据进程号获取正在执行的sql

SELECT a.osuser, https://www.wendangku.net/doc/af14777876.html,ername,b.address,b.hash_value, b.sql_text from v$session a, v$sqltext b, v$process p

where p.spid = &spid

and p.addr = a.paddr

and a.STATUS = 'ACTIVE'

and a.sql_address =b.address

order by address, piece;

数据库无法连接

数据库无法连接，一般可能是如下原因造成：

（1）数据库宕了

（2）监听异常

（3）数据库挂起

（4）归档目录满

（5）数据库或应用主机的网卡出现问题不能正常工作

（6）应用主机到数据库主机的网络出现问题。

1、数据库宕了

立即启动数据库。

2、监听异常

此时一般体现为：

监听进程占用CPU资源大；

监听日志异常。

此时，立即重启监听，监听重启一般能在1分钟之内完成。

3、数据库挂起

立即重启数据库。

4、归档目录满

（1）在没有部署OGG数据同步的情况下，立即清理归档日志文件。

（2）如果部署了OGG数据同步，查看OGG正在读取的归档日志文件，立即

清理OGG不再需要的日志文件。

5、数据库或应用主机的网卡出现问题不能正常工作。

立即联系主机工程师处理。

6、应用主机到数据库主机的网络出现问题。

立即联系网络维护人员查看。

CRS/GI无法启动

对于10g及11gR1版本的CRS问题

1、进入/tmp目录下，看是否产生了crsctl.xxxxx文件

如果有的话，看文件内容，一般会提示OCR无法访问，或者心跳IP无法

正常绑定等信息。

2、如果/tmp目录下没有crsctl.xxxxx文件

此时查看ocssd.log文件，看是否能从中得到有价值的信息。

可能的问题：网络心跳不通。

3、/tmp目录无crsctl.xxxxx且日志中没有报错信息，只有停CRS时的日志信

息。

此时可能是RAC两个节点对并发裸设备的访问有问题，此时考虑：

（1）停掉两个节点的CRS。

（2）两个节点先同时去激活并发VG，然后再激活VG。

（3）重新启动CRS。

对于11gR2的GI问题

分析$GRID_HOME/log/nodename目录下的日志文件，看是否能从中找出无法启动的原因。常见问题：

1、心跳IP不同。

2、ASM实例无法启动。

对CRS的故障诊断和分析,参加本文档中RAC部分的MOS文档.

数据库响应慢

应急处理步骤：

（1）找到占用CPU资源大的sql或者模块，然后停掉此应用模块。

（2）如果属于由于种种原因引起的数据库hang住情况，立即重启数据

库，此时重启需要约15分钟时间。

重要说明：

如果重启数据库的话，会有如下负面影响：

（1）要kill掉所有连接到数据库中的会话，所有会话都会回滚。

（2）立即重启的话，不能获取并保留分析数据库挂起原因的信息，在后续分析问题时，没有足够信息用于分析问题产生的根本原因。

一般正常重启的话，都需要手动获取用于分析数据库重启原因的信息，以便编写分析报告，但是在最长情况下，获取日志信息可能就要40分钟时间。此时一般做systemstate dump，且如果是rac情况的话，需要2个节点都做，且需要做2次或以上。

常规处理步骤，分如下几种情况处理：

（1）所有业务模块都慢。

（2）部分业务模块慢。

（3）数据库hang住。

所有业务模块都慢

此时首先查看系统资源，看是否属于CPU资源使用率100%的问题，如果是，参考本章“CPU使用率高的问题”解决办法。如果系统资源正常，那很可能是数据库hang住了，此时参考数据库Hang部分。

部分业务模块慢

分析运行慢的模块的sql语句：

（1）看是否是新上的sql。

（2）看执行计划是否高效。

（3）优化运行慢的模块的sql语句。

数据库hang住

应急处理方式：重启数据库。

常规处理方式：

（1）分析alert日志，看是否能从alert日志中，可以很快找到引起问题的原

因。

（2）做3级别的hanganalyze，先做一次，然后隔一分钟以后再做一次。

并分析hanganalyze 生成的trace文件，看是否可以找到引起数据库hang

住的会话的信息。

（3）做systemstate dump

此时生成systemstate dump的时间会比较长，尤其是在会话数量较多的情

况下。且生成dump文件的大小较大，在G级别以上。在生成一次以

后，过一分钟再收集一次，另外如果是RAC，那么两个节点都需要收

集。

对hang做dump请参考“对数据库HANG做DUMP一章”。

数据误删除

此问题，没有应急办法，只能按如下步骤处理：

1、对于10g及以上版本，看是否可以通过闪回进行恢复。

2、查看测试环境数据库，看其中是否有需要的数据。

3、使用备份进行恢复，此方法一般花费时间较长。

快速shutdown数据库

1.停止监听

2.做一个检查点操作

SQL> alter system checkpoint;

3.杀掉所有LOCAL=NO的操作系统进程

AIX、HP-UX、Linux、Solaris：

$ ps -ef|grep $ORACLE_SID| grep LOCAL=NO | grep -v grep |awk '{print $2}'|xargs -i kill -9 {}

Windows：

SQL> select 'orakill ' ||

(select value from v$parameter where name = 'instance_name') || ' ' ||p.spid

from v$process p, v$bgprocess bp

where p.ADDR = bp.PADDR(+)

and bp.PADDR is null

and p.SPID is not null;

在命令行执行：

C:\> orakill db1 7642

C:\> orakill db1 7644

4.停止数据库

SQL> shutdown immediate

清理分布式事务

-- 9i需要设置_sum_debug_mode

SQL> alter session set "_smu_debug_mode" = 4;

alter session set nls_date_format='YYYY-MM-DD HH24:MI:SS';

column local_trna_id format a20

column global_tran_id format a25

SELECT LOCAL_TRAN_ID, GLOBAL_TRAN_ID, FAIL_TIME,STATE, MIXED

FROM DBA_2PC_PENDING;

LOCAL_TRAN_ID GLOBAL_TRAN_ID FAIL_TIME STATE MIX

-------------- ------------------------- -------------------- ---------------- --- 12.29.103137 TAXIS.9572b613.12.29.103137 30-aug-2011 10:09:11 collecting no

SQL> commit force '12.29.103137';

Commit complete.

SQL> EXECUTE DBMS_TRANSACTION.PURGE_LOST_DB_ENTRY('12.29.103137');

PL/SQL procedure successfully completed.

SQL> commit; -- 清理每个分布式事务都需要commit;

数据泵

1.相关参数

PARALLEL参数考虑

可以设置成物理CPU（不是逻辑CPU）数的两倍数目，然后调整

对于Data Pump Export，PARALLEL参数必须要小于等于dump files数

对于Data Pump Import，PARALLEL不要比dump文件数大很多，可以大一些。这个参数也指定了导入时创建索引的并行度。

PARALLEL只允许在企业版使用。

nohup expdp system/manager schemas=kdjm DIRECTORY=DUMP_FILES PARALLEL=3

dumpfile=expCASES_%U.dmp logfile=nnsiexp2008_12_28.log &

通配符 %U,它指示文件将按需要创建,格式将为expCASES_nn.dmp,其中nn 从 01 开始,然后按需要向上增加

运维制度及流程

运行维护管理制度 2017年8月

目录3 3 3 5 6 6 7 8 8 9 9

1、总则第一条为保障公司信息系统软硬件设备的良好运行，使员工的运维工作制度化、流程化、规范化，特制订本制度。第二条运维工作总体目标：立足根本促发展，开拓运维新局面。在企业发展壮大时期，通过网络、桌面、系统等的运维，促进企业稳定可持续性发展。第三条运维管理制度的适用范围：运维部全体人员。 2、编制方法本实施细则包括运维服务全生命周期管理方法、管理标准/规范、管理模式、管理支撑工具、管理对象以及基于流程的管理方法。本实施细则以ITIL/ISO20000为基础，以信息化项目的运维为目标，以管理支撑工具为手段，以流程化、规范化、标准化管理为方法，以全生命周期的PDCA循环为提升途径，体现了对运维服务全过程的体系化管理。 3、运维部工作职责一、负责网站运维和技术支持（一）根据网站运营战略和目标，负责网站整体架构、栏目、应用系统等技术开发方案制定和组织开发，保障网站技术的稳定性和先进性。（二）负责网站栏目和应用系统的使用培训和操作使用指南编

写，对用户使用过程中出现问题的沟通和解决；（三）网站设备和软件购买计划书的拟定，包括采购数量、品牌规格、技术参数。会同行政部进行采购。（四）网站设备和软件操作规程和应用管理制度的制定，并负责监督执行。（五）网站设备和软件安装、调试和验收，使用培训和维修保养。（六）网站日常运行过程中信息安全和技术问题的协调解决，保障网站24小时安全稳定运行。（七）网站技术服务外包管理，主要包括技术外包开发、运行服务托管和空间域名管理。（八）负责网站管理系统及设备保密口令的设置和保存，保密口令设置后报中心主任备案，保密口令设定后任何人不得随意更改，保密口令每季度更新一次。（九）负责网站新程序、新系统和网站改版升级方案技术的设计开发。二、负责网站信息和技术安全（一）执行国家和省上有关网络信息技术安全的法律法规，与通信管理和网络安全监管部门联络，及时处理网站信息技术安全方面存在的问题，确保网站安全、稳定、可靠运行。（二）网站信息技术安全保密制度和工作流程的制定，落实信息技术安全保密责任制，执行“谁主管、谁负责，谁主办、谁负责”的原则，责任到人。

数据库日常维护工作

数据库日常维护工作是系统管理员的重要职责。其内容主要包括以下几个部分：一、备份系统数据 SYBASE 系统的备份与恢复机制保证了在系统失败时重新获取数据的可能性。SQL Server 提供了两种不同类型的恢复机制：一类是系统自动完成的恢复，这种措施在每次系统启动时都自动进行，保证了在系统瘫痪前完成的事务都写到数据库设备上，而未完成的事务都被回退；另一类是人工完成的恢复，这是通过 DUMP 和 LOAD 命令来执行人工备份和恢复工作。因此定期备份事务日志和数据库是一项十分重要的日常维护工作。 1、备份数据库每一个数据库都应在创建之后卸出，从而提供一个装入基点。在此之后按排定的时间周期表卸出。比如每周五卸出数据库。对一般数据库系统卸出数据库周期建议为每周一次。除了按计划周期卸出数据库之外，还需在每次运行没有日志的操作后卸出数据库。例如：·每次强制地运行了 DUMP TRAN WITH NO_LOG （因为数据库的磁盘空溢出）； ·每次用 sp_dboption 允许 select into/bulkcopy 做快速拷贝，或用 SELECT INTO 命令创建一个永久性的表，或使用了 WRITETEXT 命令。卸出数据库的命令为： DUMP DATABASE database_name TO dump_device database_name 是要卸出的数据库名称，dump_device 是卸出设备的名称。用系统过程 sp_helpdevice 可以获得设备的信息。下面一条命令用来卸出数据库 my_db ： DUMP DATABASE my_db TO db_bk_dev 2、备份事务日志如果事务日志与数据库放在同一个设备上，则事务日志不应与数据库分开备份。master 数据库和小于 4M 的用户数据库就是这种情况。一般数据库系统的数据库和日志分别放在不同的设备上，因此，可以用 DUMP TRAN 命令单独备份日志。备份事务日志的周期直接影响数据的恢复程度，因此建议每天备份。备份事务日志的命令格式为： DUMP TRANsaction database_name [TO dump_device] [WITH TRUNCATE_ONL Y|WITH NO_LOG|WITH NO_TRUNCA TE] 其中 database_name 是要备份事务的数据库名称，dump_device 是备份设备名称，仅当包含了 WITH TRUNCA TE_ONL Y 或 WITH NO_LOG 子句时，才可以备份到设备。注意：如果总是用 DUMP DA TEBASE （备份数据库及其日志），而不用 DUMP TRAN ，事务日志将不会刷新，而变得非常庞大。

数据库工程师数据库实施运行和维护、SQL数据库管理系统模拟题

[模拟] 数据库工程师数据库实施运行和维护、SQL数据库管理系统选择题第1题：数据库的实施是指根据数据库的逻辑结构设计和物理结构设计结果，在计算机系统上建立实际的数据库结构、导入数据并进行程序的调试。下列各项中，哪一项不是数据库实施的工作内容? A.定义数据库结构 B.数据装载 C.数据库的试运行 D.数据库运行参考答案：D 第2题：监控分析按照实现方法的不同分为两种：一种是由数据库建立自动监控机制；另一种是______。 A.空间管理 B.管理员手动实现监控 C.参数调整 D.查询优化参考答案：B 第3题：可以按照原数据库设计要求对数据库存储空间进行全面调整，重新安排存储位置、回收垃圾、减少指针链等，以提高系统性能的是______。 A.重组织 B.查询优化 C.重构造 D.监控分析参考答案：A

第4题：数据库运行一段时间后，由于记录不断增、删、改，会使数据库的物理存储情况变坏，降低了数据的存取效率，数据库的性能也下降。这时，数据库管理员就要对数据库进行______。 A.监控分析 B.空间管理 C.重组织和重构造 D.参数调整参考答案：C 第5题：可以通过部分修改数据库的模式和内模式，使数据库适应新的应用环境的是 ______。 A.重组织 B.重构造 C.参数调整 D.空间管理参考答案：B 第6题：避免或简化排序的目的是______。 A.查询优化 B.重构造 C.监控分析 D.重组织参考答案：A 第7题：下列关于数据库恢复的描述中，不正确的是______。 A.应定期将数据库做成档案文件 B.在进行事务处理过程时数据库更新的全部内容写入日志文件 C.数据库恢复，还可用最新的档案文件和日志文件的更新映像，将文件恢复到最新的检查点文件状态 D.发生故障时用当前的数据内容和档案文件更新前的映像，将文件恢复到最近的检查点文件状态

运维部服务规范手册V2.1

上海伯乔信息科技有限公司运维部服务规范手册 @ ~

版本历史备注版本/状态作者参与者、起止日期 2011-8-29创建、增加运维流程、去掉部分 2011-9-16 表单 2011-10-12优化板块和界面文档中特殊符号注解：表示注解。表示同个标题下不同项目或步骤 : 目录目录 1服务文化 (3) 服务宗旨： (3) 服务理念： (3) 2服务总则 (4) 两个愿景： (4) 四项要求： (4) 七大不准 (4) 3运维规范 (5) ， 24小时响应机制 (5) 远程排障规范 (5)

服务电话接听流程规范 (6) 接听电话 (6) 上门服务流程规范 (7) 生成上门服务单（见附表1） (7) 上门服务流程规范 (8) 交单归档 (17) 售前技术支持规范 (17) 售前技术支持的准备工作 (18) < 售前工作注意事项 (18) 拜访结束，填写表单 (19) 售前后续工作 (19) 售后培训服务规范 (20) 售后培训环境部署 (20) 售后讲师培训工作规划 (20) 培训体系优化 (21) 运维流程 (21) 4附表 (22) " 1服务文化 1.1服务宗旨：愈精致、愈宽容、愈贴心

1.2服务理念：激情、创造、分享、奉献 2服务总则 2.1两个愿景：用我们的诚心满足客户服务需求，让伯乔客户感动用我们的专业提升客户使用价值，让伯乔品牌增值2.2— 2.3四项要求：服装整洁，注重仪表关注客户，真诚服务操作规范，行为专业乐于沟通，耐心指导 2.4七大不准不准对客户的需求置之不理不准代替客户在服务单据上签名不准接受客户任何形式的馈赠不准无故失约 :

Oracle DBA 数据库日常维护手册常用SQL 脚本

Oracle数据库日常维护【版本整理日期：2011/02/26 】版本整理人：1634068400@https://www.wendangku.net/doc/af14777876.html, 本文档包含以下内容： 1．Oracle数据库日常维护 2．Oracle DBA 常用管理脚本 3．Oracle DB 常用SQL 语句

/******************************************************** https://www.wendangku.net/doc/af14777876.html,(若跳转不成功，请复制到浏览器或联系Q) https://www.wendangku.net/doc/af14777876.html,/item.htm?id=7437120468Metalink Sharing ********************************************************/

在Oracle数据库运行期间，DBA应该对数据库的运行日志及表空间的使用情况进行监控，及早发现数据库中存在的问题。一、Oracle警告日志文件监控 Oracle在运行过程中，会在警告日志文件(alert_SID.log)中记录数据库的一些运行情况： l数据库的启动、关闭，启动时的非缺省参数； l数据库的重做日志切换情况，记录每次切换的时间，及如果因为检查点(checkpoint)操作没有执行完成造成不能切换，会记录不能切换的原因； l对数据库进行的某些操作，如创建或删除表空间、增加数据文件； l数据库发生的错误，如表空间不够、出现坏块、数据库内部错误(ORA －600)

DBA 应该定期检查日志文件，根据日志中发现的问题及时进行处理问题处理启动参数不对检查初始化参数文件因为检查点操作或归档操作没有完成造成重做日志不能切换如果经常发生这样的情况，可以考虑增加重做日志文件组；想办法提高检查点或归档操作的效率；有人未经授权删除了表空间检查数据库的安全问题，是否密码太简单；如有必要，撤消某些用户的系统权限出现坏块检查是否是硬件问题(如磁盘本生有坏块)，如果不是，检查是那个数据库对象出现了坏块，对这个对象进行重建表空间不够增加数据文件到相应的表空间出现ORA-600 根据日志文件的内容查看相应的TRC 文件，如果是Oracle 的bug ，要及时打上相应的补丁二、数据库表空间使用情况监控（字典管理表空间）数据库运行了一段时间后，由于不断的在表空间上创建和删除对象，会在表空间上产生大量的碎片，DBA 应该及时了解表空间的碎片和可用空间情况，以决定是否要对碎片进行整理或为表空间增加数据文件。 select tablespace_name,

日常运维操作手册汇总

《日常运维操作手册》 ? 一、查看硬盘可用容量双击“我的电脑”打开资源管理器，右击我们将要查看的盘符。例如：我们要查看Ｄ盘,只需要在相关的D盘上右击―属性即可看到如下图1-1所示

图１-1 从上图1-１中可以看出Ｄ盘的己用空间为9．６6GB,而可用空间仅为10９MB。二、监视系统资源根据运维报告指示,一般需要对服务器的处理器(ＣPU）、内存、网卡及IＩS等在系统运行过程中表现的性能状况进行监测。监测指标分析Ｉ D 计数器名称说明 1 %Processｏr Ｔ ime 指处理器执行非闲置线程时间的百分比;通俗一点讲就是ＣPU使用率。计数器会自动记录当前所有进程的处理器时间。 2 Page／sec 指为解析硬页错误从磁盘读取或写入磁盘的页数（是Ｐａges Ｉnｐut/ｓeｃ和Ｐaｇｅs Ouｔｐｕt/ｓec 的总和）。 3 Nｅtwoｒk Inteｒ faｃe Byｔes Tｏ taｌ/seｃ为发送和接收字节的速率,包括帧字符在内。判定网络连接是否存在瓶颈。４Cｕｒｒｅｎt Co ｎｎectionｓ检测WEＢ服务的用户连接情况。 1.建立性能监测后台运行计数器 1)打开开始-程序－管理工具-性能,找到“性能日志和警报”下的“计数器日志”。

新建一个计数器，右击右边空白区域“新建”，如下图2－1所示. 图２-１ 2)在新建计数器日志的名称输入容易理解的名称，如:新性能。下图2-2所示．图2－2 3)输入计数器名称后，可进入如下图2－3所示图面。其中计数器的日志内容会在默认情况下记录到“C:\ＰｅｒfLｏｇs\新性能_０00００１.bｌg”下（文件名称的定义后面有详细说明并且可定制)。

(完整版)中国铁塔动环常见告警处理指导手册

中国铁塔动环常见告警处理指导手册一、FSU离线告警告警名称：FSU离线；告警解释：FSU和铁塔集团平台连接通讯中断；原因分析：1）信号差或不稳定；2）FSU设备掉电；3）无线模块硬件故障；4）FSU设备硬件故障；5）天线和无线模块连接中断，或天线丢失；6）VPN服务器连接不上；7）SIM卡被盗、欠费或故障。平台处理方法：查询历史告警记录，如频繁离线或长时间离线，需现场检查。现场处理方法：第一步检查供电： 1）在运维监控系统检查离线站点是否有停电告警，判断是否现场停电； 2）现场检查FSU指示灯不亮设备没有供电。原因分析：FSU供电异常。解决方案： 1）检查整个基站是否停电，如停电则通知相关人员取电； 2）检查FSU供电空开是否跳闸及通电线路是否正常。第二步检查无线模块：检查无线模块指示灯都不亮或都常亮。

原因分析：无线模块供电异常或无线模块故障。解决方案： 1）无线模块供电故障，则检查给无线模块供电接线是否正常如正常，则用万用表测量给无线模块供电FSU输出端是否有12V，如没有则为FSU供电板问题，更换FSU供电板。 2）确认供电正常，则更换无线模块进行测试。下站建议：下站时建议随身带上一套可以成功拨号的无线网卡和SIM 卡，下站的时候作对比验证，快速确认是SIM卡问题，还是无线模块问题。第三步FSU检查通过EISUConfig软件登陆FSU设备，点击设备诊断管理。 1）信号强度弱：通过设备软件登录设备，如信号强度小于15。

解决方案：更换运营商无线模块或将天线外延（室内站放到室外，室外柜放到底部隐蔽区域或有外层保护情况下放到机柜顶部） 2）铁塔VPN网络连接异常：铁塔VPN网络提示连接异常 3）铁塔网管未注册：铁塔网管提示连接异常（正常显示连接正常）解决方案：确认总部平台正常，重启FSU（等待程序连接）。如重启后未恢复，联系厂家专业人员。平台恢复确认：告警管理-活动告警监控-当前告警查询该站点，确认告警是否消除。二、电源配套告警 2.1开关电源类告警： 2.1.1开关电源通信状态告警告警名称：开关电源通信状态告警；告警解释：开关电源和FSU之间的通讯中断；原因分析：开关电源和FSU之间的通讯中断平台处理方法：无现场处理方法：检查开关电源屏幕是否显示正常，和FSU的监控线连接是否正常。

Oracle数据库日常维护手册

Oracle数据库日常维护手册在Oracle数据库运行期间，DBA应该对数据库的运行日志及表空间的使用情况进行监控，及早发现数据库中存在的问题。一、Oracle警告日志文件监控 Oracle在运行过程中，会在警告日志文件(alert_SID.log)中记录数据库的一些运行情况: ●数据库的启动、关闭，启动时的非缺省参数; ●数据库的重做日志切换情况，记录每次切换的时间，及如果因为检查点(checkpoint)操作没有执行完成造成不能切换，会记录不能切换的原因; ●对数据库进行的某些操作，如创建或删除表空间、增加数据文件; ●数据库发生的错误，如表空间不够、出现坏块、数据库内部错误(ORA-600) DBA应该定期检查日志文件，根据日志中发现的问题及时进行处理问题处理启动参数不对检查初始化参数文件因为检查点操作或归档操作没有完成造成重做日志不能切换如果经常发生这样的情况，可以考虑增加重做日志文件组;想办法提高检查点或归档操作的效率; 有人未经授权删除了表空间检查数据库的安全问题，是否密码太简单;如有必要，撤消某些用户的系统权限出现坏块检查是否是硬件问题(如磁盘本生有坏块)，如果不是，检查是那个数据库对象出现了坏块，对这个对象进行重建表空间不够增加数据文件到相应的表空间出现ORA-600根据日志文件的内容查看相应的TRC文件，如果是Oracle的bug，要及时打上相应的补丁二、数据库表空间使用情况监控(字典管理表空间)

数据库运行了一段时间后，由于不断的在表空间上创建和删除对象，会在表空间上产生大量的碎片，DBA应该及时了解表空间的碎片和可用空间情况，以决定是否要对碎片进行整理或为表空间增加数据文件。 select tablespace_name, count(*) chunks , max(bytes/1024/1024) max_chunk from dba_free_space group by tablespace_name; 个人收集整理上面的SQL列出了数据库中每个表空间的空闲块情况,如下所示: TABLESPACE_NAME CHUNKS MAX_CHUNK -------------------- ---------- ---------- INDX 1 57.9921875 RBS 3 490.992188 RMAN_TS 1 16.515625 SYSTEM 1 207.296875 TEMP 20 70.8046875 TOOLS 1 11.8359375 USERS 67 71.3671875个人收集整理其中，CHUNKS列表示表空间中有多少可用的空闲块(每个空闲块是由一些连续的Oracle 数据块组成)，如果这样的空闲块过多，比如平均到每个数据文件上超过了100个，那么该表空间的碎片状况就比较严重了，可以尝试用以下的SQL命令进行表空间相邻碎片的接合: alter tablespace 表空间名 coalesce; 然后再执行查看表空间碎片的SQL语句，看表空间的碎片有没有减少。如果没有效果，并且表空间的碎片已经严重影响到了数据库的运行，则考虑对该表空间进行重建。 MAX_CHUNK列的结果是表空间上最大的可用块大小，如果该表空间上的对象所需分配的空间(NEXT值)大于可用块的大小的话，就会提示ORA-1652、ORA-1653、ORA-1654的错误信息，DBA应该及时对表空间的空间进行扩充，以避免这些错误发生。对表空间的扩充对表空间的数据文件大小进行扩展，或向表空间增加数据文件，具体操作见“存储管理”部份。三、查看数据库的连接情况

数据库运维管理规范

数据库运维管理规范龙信思源(北京)科技有限公司一、总则为规范公司生产系统的数据库管理与配置方法,保障信息系统稳定安全地运行,特制订本办法。二、适用范围本规范中所定义的数据管理内容,特指存放在系统数据库中的数据,对于存放在其她介质的数据管理,参照相关管理办法执行。三、数据库管理员主要职责 3、1、负责对数据库系统进行合理配置、测试、调整,最大限度地发挥设备资源优势。负责数据库的安全运行。 3、2、负责定期对所管辖的数据库系统的配置进行可用性,可靠性,性能以及安全检查。 3、3、负责定期对所管辖的数据库系统的可用性,可靠性,性能以及安全的配置方法进行修订与完善。

3、4、负责对所管辖的数据库系统运行过程中出现的问题及时处理解决。 3、5、负责对所管辖数据库系统的数据一致性与完整性,并协助应用开发人员、使用操作等相关人员做好相关的配置、检查等工作。 3、6、负责做好数据库系统及数据的备份与恢复工作。四、数据库的日常管理工作 4、1、数据库管理的每日工作 (1)检查所有的数据库实例状态以及所有与数据库相关的后台进程。 (2)检查数据库网络的连通与否,比如查瞧监听器(listener)的状态、网络能否ping通其它的计算机、应用系统的客户端能否连通服务器等等。 (3)检查磁盘空间的使用情况。如果剩余的空间不足 20% ,需要删除不用的文件以释放空间或申请添加磁盘。 (4)查瞧告警文件有无异常。 (5)根据数据库系统的特点,检查其它的日志文件中的内容,发现异常要及时加以处理。 (6)检查cpu、内存及IO等的状态。 (7)检查备份日志文件的监控记录,确定自动备份有无成功完成。对于数据库的脱机备份,要确信备份就是在数据库关闭之后才开始的,备份内容就是否齐全。运行在归档模式下的数据库,既要注意归档日志文件的清除,以免磁盘空间被占满,也必须注意归档日志文件的保留,以备恢复时使用。

数据库项目组日常运维与应急故障处理手册范本

常见问题及处理方案 CPU使用率高的问题通过操作系统命令top topas glance等查看top进程号，确认是系统进程还是oracle应用进程，查询当前top进程执行的操作和sql语句进行分析。根据进程号获取正在执行的sql SELECT a.osuser, https://www.wendangku.net/doc/af14777876.html,ername,b.address,b.hash_value, b.sql_text from v$session a, v$sqltext b, v$process p where p.spid = &spid and p.addr = a.paddr and a.STATUS = 'ACTIVE' and a.sql_address =b.address order by address, piece; 数据库无法连接数据库无法连接，一般可能是如下原因造成：（1）数据库宕了（2）监听异常（3）数据库挂起（4）归档目录满（5）数据库或应用主机的网卡出现问题不能正常工作（6）应用主机到数据库主机的网络出现问题。 1、数据库宕了立即启动数据库。 2、监听异常此时一般体现为：监听进程占用CPU资源大；监听日志异常。此时，立即重启监听，监听重启一般能在1分钟之完成。 3、数据库挂起立即重启数据库。 4、归档目录满（1）在没有部署OGG数据同步的情况下，立即清理归档日志文件。

（2）如果部署了OGG数据同步，查看OGG正在读取的归档日志文件，立即清理OGG不再需要的日志文件。 5、数据库或应用主机的网卡出现问题不能正常工作。立即联系主机工程师处理。 6、应用主机到数据库主机的网络出现问题。立即联系网络维护人员查看。 CRS/GI无法启动对于10g及11gR1版本的CRS问题 1、进入/tmp目录下，看是否产生了crsctl.xxxxx文件如果有的话，看文件容，一般会提示OCR无法访问，或者心跳IP无法正常绑定等信息。 2、如果/tmp目录下没有crsctl.xxxxx文件此时查看ocssd.log文件，看是否能从中得到有价值的信息。可能的问题：网络心跳不通。 3、/tmp目录无crsctl.xxxxx且日志中没有报错信息，只有停CRS时的日志信息。此时可能是RAC两个节点对并发裸设备的访问有问题，此时考虑：（1）停掉两个节点的CRS。（2）两个节点先同时去激活并发VG，然后再激活VG。（3）重新启动CRS。对于11gR2的GI问题分析$GRID_HOME/log/nodename目录下的日志文件，看是否能从中找出无法启动的原因。常见问题： 1、心跳IP不同。 2、ASM实例无法启动。对CRS的故障诊断和分析,参加本文档中RAC部分的MOS文档. 数据库响应慢

ORACLE数据库日常维护与管理手册

全球眼?（MEGAEYES）网络图像管理系统2.0 ORACLE日常维护与管理手册北京互信互通信息技术有限公司 2004-08-08

目录全球眼?（MEGAEYES）网络图像管理系统2.0 (1) 1引言 (3) 1.1 目的 (3) 1.2 范围 (3) 1.3 参考资料 (3) 2日常维护与管理说明 (3) 2.1 运行环境 (3) 2.1.1硬件环境 (3) 2.1.2软件环境 (3) 2.2 数据库日常维护 (4) 2.2.1数据库初始设置 (4) 2.2.2每日工作内容 (5) 2.2.3每周工作内容 (6) 2.2.4每月工作内容 (7)

1引言 1.1目的对于重要的商业系统来说，数据库系统的正常运行是保证商业应用平稳运行的关键。但是数据库在运行过程中可能会因为种种原因发生问题。这时，数据库的管理与日常维护工作将变得尤为重要。为了指导数据库管理员做好日常维护工作，保证数据库系统的正常运行，特制定本文档。当然，数据库的日常维护是复杂和繁琐的，本文仅涉及一些常见的数据库日常维护的内容，在实际工作中，数据库管理员还需要做更多的工作。 1.2范围本文档使用的人员：数据库维护管理人员和相关人员。本文档涉及内容：oracle数据库的日常维护与管理解决方案。 1.3参考资料中国电信网络视频监控技术（暂行）规范 2日常维护与管理说明 2.1运行环境程序的运行环境包括硬件运行环境和软件运行环境。 2.1.1硬件环境 ◆CPU类型：Intel及其兼容系列CPU ◆内存容量：剩余内存要达2G以上 ◆硬盘容量：剩余硬盘容量要达1G以上 ◆网卡类型：100M网卡 2.1.2软件环境 ◆操作系统：RedHat Linux AS 3.0 ◆数据库：Oracle9i Database Release 2 (9.2.0.4.0) for Linux x86

IT运维手册故障及处理

IT运维手册第二篇硬件篇一计算机章㈤常见问题 1主机 ⑴无法正常开机 ①硬盘灯亮多为显示器或LCD排线问题，可插入系统引导盘看有无反应，若无反应，则为硬件问题，建议售后处理；若有反应，则为软件问题，可重装系统。 ②硬盘灯不亮 I电源问题需更换电源和电池，多为电源适配器或电池损坏造成的提供电压不稳。可更换同型号电源线，排查故障。 II内存问题拔插内存条或更换插槽。可能是内存条松动或自配内存条不兼容造成，若因不兼容，可通过更改BIOS设置解决。 III灰尘问题笔记本长期不清洗，积压过多灰尘会造成静电或短路，可拆开外壳用吹风机清理灰尘。 IV主板问题主板问题是造成不能开机最大可能因素，主板为集成电路，任何地方损坏都会造成硬盘无法通电，从而不能开机，建议去售后处理。 ⑵无法正常上网

①网络设置问题此原因较多出现于需手动指定IP、网关、DNS服务器联网方式下，及使用代理服务器上网的，应仔细检查计算机的网络设置。 ②DNS服务器的问题 I当IE无法浏览网页时，可先尝试用IP地址来访问，如果可以访问，则为DNS的问题，造成DNS的问题可能是联网时获取DNS出错或DNS服务器本身问题，可手动指定DNS服务（地址可以是当地TSP提供的DNS服务器地址，也可用其它地方可正常使用DNS服务器地址。在网络的属性里进行（控制面板-网络和拨号连接-本地属性-TCP/IP协议-属性-使用下面的DNS服务器地址）。不用的ISP有不同的DNS地址。有时候则是路由器或网卡的问题，无法与ISP的DNS服务连接，这种情况可重启路由器或重新设置路由器。 II本地DNS缓存出现问题，为提高网站访问速度，系统会自动将已经访问过并获取IP地址的网站存入本地DNS缓存里，一旦继续访问此网站，则不再通过DNS服务器而直接从本地DNS缓存取出该网站的IP地址进行访问。所以，如果本地DNS缓存出现问题，会导致网站无法访问。可以在“运行”中执行ipconfig /flushdns来重建本地DNS缓存。 ③IE浏览器本身的问题 IE浏览器本身出现故障或IE被恶意修改破坏都会导致无法浏览网页，可尝试用上网助手“IE修复专家”来修复或者重装IE浏览器。 ④网络防火墙问题如果网络防火墙设置不当，如安全等级过高、不小心把IE放进了阻止访问列表、错误的防火墙策略等，可尝试检查策略、降低防火墙安全等级或直接关掉试试是否恢复正常。

数据库日常维护

数据库日常维护(参考) 数据库日常维护工作是系统管理员的重要职责。其内容主要包括以下几个部分：一、备份系统数据 SYBASE 系统的备份与恢复机制保证了在系统失败时重新获取数据的可能性。SQL Server 提供了两种不同类型的恢复机制：一类是系统自动完成的恢复，这种措施在每次系统启动时都自动进行，保证了在系统瘫痪前完成的事务都写到数据库设备上，而未完成的事务都被回退；另一类是人工完成的恢复，这是通过DUMP 和LOAD 命令来执行人工备份和恢复工作。因此定期备份事务日志和数据库是一项十分重要的日常维护工作。 1、备份数据库每一个数据库都应在创建之后卸出，从而提供一个装入基点。在此之后按排定的时间周期表卸出。比如每周五卸出数据库。对一般数据库系统卸出数据库周期建议为每周一次。除了按计划周期卸出数据库之外，还需在每次运行没有日志的操作后卸出数据库。例如： ·每次强制地运行了DUMP TRAN WITH NO_LOG （因为数据库的磁盘空溢出）； ·每次用sp_dboption 允许select into/bulkcopy 做快速拷贝，或用SELECT INTO 命令创建一个永久性的表，或使用了WRITETEXT 命令。卸出数据库的命令为： DUMP DATABASE database_name TO dump_device database_name 是要卸出的数据库名称，dump_device 是卸出设备的名称。用系统过程sp_helpdevice 可以获得设备的信息。下面一条命令用来卸出数据库my_db ： DUMP DATABASE my_db TO db_bk_dev 2、备份事务日志

DATASTAGE日常运维手册

DATASTAGE日常运维手册项目名称：DATASTAGE运维编制时间：2015年 11月

修改记录本文档中所包含的信息，如无中国建设银行的书面许可，任何人都无权复制或利用。?Copyright 2011 by China Construction Bank 第1章 Datastage介绍 1.1产品概述 DataStage企业版是Ascential Software公司所有企业整合系列产品中关键产品。企业版支持大容量数据的收集、整合和转换，数据从简单结构到很复杂的结构。基于高可扩展性的软件架购，企业版使得企业能够通过高性能来解决大部分业务问题，并行处理大容量数据。强大的企业元数据管理能力使得可以在数据整合生命周期中在所有工具中共享和使用工具。 DataStage企业版发布了四个核心功能来成功实施企业数据整合： 1)先进的开发和简单化的维护； 2)企业级别的开发、监测和管理； 3)在吞吐量和性能方面提供了无限制的高扩展的体系架构； 4)端对端的企业级元数据管理。 DataStage企业版提供了全面的功能去最优化用户在建立、升级和管理数据整合架构时的速度、灵活性和效率。DataStage企业版增强的功能减少了学习的周期、简单化了管理和优化了开发资源的使用，减少了数据整合应用的开发和维护周期。结果，DataStage企业版使得企业能够花更少的时间开发他们的整合应用，更多的时间是不断的从中受益。

1.2基础架构 1.3客户档介绍用户通过各个客户端工具访问DataStage企业版的开发、配置和维护功能。这些工具包括： Designer：用来建立和编辑DataStage作业和表的定义。Designer中的“Job Sequencer”控制作业的执行，其他作业成功完成（或失败，等）的条件。 Administrator：用来执行管理任务，如建立DataStage用户、建立和删除工程并且建立清洗标准。 Manager：用来编辑管理用户工程的DataStage资料库。 Director：用来验证、时序安排、运行和监测企业版作业。第2章日常操作 2.1登录客户端 2.1.1登录Datastage Administrator 客户机点击图标选择需要登录的服务器，输入用户名，密码登录进去后点击项目，可进行项目增加，删除，设置项目属性 2.1.2登录Datastage Designer客户机点击图标选择需要登录的域，输入用户名，密码，选择需要登录的项目登录成功：

系统运维管理制度

运维管理制度系统运维管理制度(试行) （2018年8月版）第一章总则运维以技术为基础，通过技术保障产品提供更高质量的服务。在软件产品的整个生命周期中运维组都需要适时参与并发挥不同得作用，因此运维组工作内容和方向非常多。运维目标是在服务出现异常时尽可能快速恢复服务，从而保障服务的可用性；同时深入分析故障产生的原因；推动并修复服务存在的问题，同时设计并开发相关的预案以确保服务出现故障是可以高效止损。第一条为保障信息系统软硬件设备的良好运行，使运维技术人员工作制度化、流程化、规范化，特制订本制度。第二条运维管理工作总体目标：立足根本促发展，开拓运维新局面。在办公系统运行推广时期，通过网络、桌面、系统等的运维，促进信息系统能够稳定可持续性的发展。第三条运维管理制度的适用范围：运维全体人员。第二章编制方法第一条本实施细则包括运维服务全生命周期管理方法、管理标准/规范、管理模式、管理支撑工具、管理对象以及基于流程的管理方法。

第二条本实施细则以ITIL/ISO20000为基础，以信息化项目的运维为目标，以管理支撑工具为手段，以流程化、规范化、标准化管理为方法，以全生命周期的PDCA循环为提升途径，体现了对运维服务全过程的体系化管理。第三章运维部工作职责第一条系统运维和技术支持（1）根据公司业务的推进和发展目标，负责平台信息系统管理及数据交换策略的整体架构、对应用系统等技术开发方案的基础支撑，保障基础平台的稳定性和先进性。（2）负责系统基础平台的使用培训和操作使用指南编写，对用户使用过程中出现问题的沟通和解决；（3）会同项目实施，确认系统信息基础设备和软件数量、品牌规格、技术参数，确保项目有效推进实施。（4）系统信息基础设备和软件操作规程、应用管理制度的制定，并负责监督执行。（5）系统信息基础设备的软件安装、调试和验收，使用培训和维修保养。（6）系统信息基础平台日常运行过程中信息安全和技术问题的协调解决，保障平台24小时安全稳定运行。（7）负责平台系统管理及设备保密口令的设置、更新、保存。（8）负责系统信息协同管理及协同数据交换策略研究新程序、新系统和软件改版升级工作。

运维手册_数据库_DataGuard日常运维手册

文档标识文件状态：[] 草稿 [√] 正式发布 [ ] 正在修改 Oracle RAC+DataGuard 运维手册版本：1.0.0 编制周光晖2015年01月20 审核批准年月日生效日期：年月日

修订历史记录日期版本修订说明作者

目录第一章引言 (3) **. 编写目的 (3) **. 定义、首字母缩写词和缩略语 (4) 第二章......................................................................................................... D ATA G UARD状态查询4 **. 检查主备库的D ATA G UARD状态信息 (4) **. 检查进程 (4) **. 检查归档状态 (4) **. 检查最后应用的日志S EQUENCE (5) **. 查看是否使用实时应用 (5) **. 检查GAP (5) **. 检查保护模式 (5) **. 相关视图 (6) 第三章................................................................................................................... SWITCHOVER 6 **. 确认主库状态是否支持切换操作 (6) **. 执行主库转换 (7) **. 关闭并MOUNT新备库 (7) **. 确认老备库状态 (7) **. 切换目标备库为主库 (7) **. 打开新主库 (8) **. 启动新备库的日志应用 (8) **. 开启新备库的ADG (8) 第一章引言 1.1. 编写目的本文档描述了Oracle 11gR2 RAC+ADG操作手册。包含RAC DOWN机测试，日常查询状态，启停RAC等指令同时包含oracle 11g R2 ACTIVE DATAGUARD 的日常维护指令。

Terata系统日常维护手册

T e r a t a系统日常维护手册 Document serial number【NL89WT-NY98YT-NC8CB-NNUUT-NUT108】

数据仓库系统日常维护标准文档下面列表内容为日常维护检查系统的具体情况：

1,psh pdestate –看是不是所有节点都正常的。登出所有用户：（登出前跟客户联系一下。） # cnsterm 6 open the database supervisor screen Input Supervisor Command: abort session *.* logoff Is the data base quiescent (Verify all sessions are gone.) # /tpasw/bin/vprocmanager –s DBS State: Logons are enabled – The system is quiescent PDE State: TPA If system is not quiescent (still users are logged on), perform a dbs coldwait restart from vprocmanager. Otherwise continue with “Bring database down”: # /tpasw/bin/vprocmanager Enter a command, HELP or QUIT: restart coldwait to clear session table Wait for the database to come up again. Is the data base quiescent (Verify all sessions are gone.) # /tpasw/bin/vprocmanager –s DBS State: Logons are enabled – The system is quiescent PDE State:TPA 检查wal的大小：（bteq登录， systemfe|service） select currentperm ,vproc from where databasename = ‘DBC’ and tablename = ‘transientjournal’ order by 1 desc; 4, # vprocmanager > status not > quit ---应该没有amp显示出来。 5, # ctl (Linux)

运维故障处理思路

事件/故障处理应该要有什么思路导读: 在讲解事件、故障处理思路前,我先讲一个故障场景(以呼叫中心系统作为一例子): 业务人员反映呼叫中心系统运行缓慢,部份电话在自助语言环节系统处理超时,话务转人工座席,人工座席出现爆线情况。运维人员开始忙活了,查资源使用情况、查服务就是否正常、查日志就是否报错、查交易量还有没有……时间不知不觉的在敲键盘、敲键盘、敲键盘中过去,但就是原因还未定位。经理过来了解情况:“系统恢复了不？”、“故障影响就是什么？”、“交易中断了不？”…… 运维人员赶紧敲键盘,写sql,瞧交易量;敲键盘,写命令,瞧系统资源、情况…… 最终,定位到问题原因就是其中一个功能没有控制返回数量,导致内存泄露。针对这个故障,业务希望运维能否更快的解决故障的恢复,经理希望制定优化呼叫中心故障处理流程,做了以下几件事: 1.优先故障处理过程的时间——”能通过鼠标完成的工作,不要用键盘“ 2.提前发现故障,加强监控——“技术早于业务发现问题,监控不仅就是报警,还要协助故障定位” 3.完善故障应急方案——“应急方案就是最新的、准确的、简单明了的” 4.长远目标:故障自愈——”能固化的操作自动化,能机器做的让机器做“ 下面将从故障常见的处理方法开始介绍,再从故障前的准备工作(完善监控、制定应急方案等方式)来解决经理提出的问题,并提出未来解决故障的想法。 1、常见的方法: 1)确定故障现象并初判问题影响在处理故障前,运维人员首先要知道故障现象,故障现象直接决定故障应急方案的制定,这依赖于运维人员需要对应用系统的整体功能有一定的熟悉程度。确认了故障现象后,才能指导运维人员初判断故障影响。 2)应急恢复

Oracle数据库维护手册

Oracle 数据库定期维护手册定期备份任务计划执行检查打开附件(系统工具(任务计划查看状态，如果状态是未能启动,则打开菜单高级(查看日志，看未能执行任务计划的原因，并处理，处理完成后，右击任务计划运行。使用DBA 图形工具(8.1.7 DBA Studio,9i Oracle Enterprise manager Console,10G 网页的EM )检查数据库状态主要检查空间使用情况，重点对超过80%已使用的表空间进行检查，必要时增加数据文件或将相应的数据文件设为自动扩展，注意单个数据文件大小不要超过3.9G Oracle警告日志文件监控 Oracle在运行过程中，会在警告日志文件(alert.log或alert_SID.log)中记录数据库的一些运行情况: ●数据库的启动、关闭，启动时的非缺省参数; ●数据库的重做日志切换情况，记录每次切换的时间，及如果因为检查点(checkpoint)操作没有执行完成造成不能切换，会记录不能切换的原因; ●对数据库进行的某些操作，如创建或删除表空间、增加数据文件; ●数据库发生的错误，如表空间不够、出现坏块、数据库内部错误(ORA-600) DBA应该定期检查日志文件，根据日志中发现的问题及时进行处理问题处理如提示启动参数不对，则检查初始化参数文件因为检查点操作或归档操作没有完成造成重做日志不能切换如果经常发生这样的情况，可以考虑增加重做日志文件组;想办法提高检查点或归档操作的效率; 有人未经授权删除了表空间则检查数据库的安全问题，是否密码太简单;如有必要，撤消某些用户的系统权限出现坏块检查是否是硬件问题(如磁盘本生有坏块)，如果不是，检查是那个数据库对象出现了坏块，对这个对象进行重建表空间不够增加数据文件到相应的表空间出现ORA-600根据日志文件的内容查看相应的TRC文件，如果是Oracle的bug，要及时打上相应的补丁数据库表空间使用情况检查数据库运行了一段时间后，由于不断的在表空间上创建和删除对象，会在表空间上产生大量的碎片，DBA应该及时了解表空间的碎片和可用空间情况，以决定是否要对碎片进行整理或为表空间增加数据文件。 select tablespace_name, count(*) chunks , max(bytes/1024/1024) max_chunk from dba_free_space group by tablespace_name; 其中，CHUNKS列表示表空间中有多少可用的空闲块(每个空闲块是由一些连续的Oracle 数据块组成)，如果这样的空闲块过多，比如平均到每个数据文件上超过了100个，那么该