在本部分,我们来看像OpManager这样的网络管理软件如何帮助管理员防止Active
Directory发生故障!
Active Directory的故障恶梦
设想你的CEO在进入他的计算机时访问遭到拒绝,会是什么结果?可能他只是在输入密码时忘记释放Caps Lock 键 (还好!),也可能在用户身份验证中起重要作用的 Kerberos 密钥分发中心服务已停止运行,
但策略强迫所有 Windows 用户必须登录域 (这就麻烦了!)。
IT 帮助台中大部分工单都是源于用户试图访问其计算机之外的资源时所产生的问题。Active Directory 正是这些不间断的访问活动系统的关键所在。例如,用户身份验证、Exchange 邮件路由等常见操作都依赖于 Active Directory。
所以持续监视Active Directory及相关服务变得非常重要 这样您就可能远离这种令人讨厌的故障了!
在Active Directory中监视什么?
可导致用户访问问题的Active Directory组件相当多,需要在 AD 上监视的几个重要因素是:
- 系统资源可用性
- LDAP 的响应度
- DNS Client 服务的可用性
- Kerberos 密钥分发中心服务的可用性
- Net Log On 服务的可用性
- File Replication Service (FRS) 的健康状况
系统资源可用性:硬件故障、磁盘空间不足等是导致服务器崩溃的常见问题。Active Directory 的请求需要快速响应。这要求承载Active
Directory的服务器的 CPU、内存和磁盘空间以最佳级别运行并且 24*7 接受监视。 LDAP 的响应度:LDAP 是用于检索目录信息的客户端。监视 LDAP Bind时间、活动连接数、LDAP 搜索、LDAP 写入之类的 LDAP 参数是确保其可用性的主动步骤。
DNS Client 服务的可用性:DNS 查找故障可导致问题。域控制器可能还不能注册实际担保域控制器可用性的 DNS 记录。这将导致域中的其他域控制器、用户和计算机因无法定位此 DC 而再次发生复制故障。请参考本文
中与 AD 相关的 DNS 问题的故障诊断。
Kerberos 密钥分发中心服务的可用性:Active Directory 依靠此服务进行身份验证。此服务的失败将导致登录失败。请参考本文内容,了解此服务的运行方式。
Net Log On 服务的可用性:验证用户的请求由此服务提供服务。此服务失败时登录也不可能成功。如果此服务不可用,则域控制器将不能接受登录请求。
File Replication Service (FRS) 的健康状况:FRS 服务在网络中的所有域控制器(如果具有一个以上的域控制器)中复制Active
Directory中的对象。此操作可确保 AD 上信息的全天候可访问性,这对 LAN 和 WAN 都有效。当 FRS 失败时,不能在其他域控制器上复制这些对象。如果主 DC 失败,则在辅助(从属)DC 接收请求时,它将不复制用户帐户。这就会导致登录失败。在 DNS 配置不正确时,复制也会失败。
其他:其他原因有不存在网络连接、同一时间访问 DC 的应用程序太多等。
使用OpManager进行监视Active Directory
OpManager监视Active Directory赖以正常运行的所有服务和资源。可以配置阈值,在超越安全限制时接收即时通知。
监视域控制器的可用性 OpManager 提供域控制器可用性的操控板视图,上有查看过去一周、一个月等的可用性统计选项。
监视域控制器的健康状况 系统资源使用率提供域控制器健康状况的实时状态。可以从此处查看 CPU 利用率、内存利用率、磁盘利用率等详细信息。
监视器性能计数器 可以从此处查看Active directory 性能计数器,如目录读取、目录写入、Kerberos 身份验证等。
监视器Active Directory的服务 主要的Active Directory服务,如 Windows Time 服务、DNS Client 服务、File Replication Service、Inter-site Messaging 服务、Kerberos 密钥分发中心服务、Security Accounts Manager 服务、Server Service Workstation 服务、RPC 服务和 Net Logon 服务。
OpManager所监视Active Directory参数的完整列表
下面是OpManager为确保Active Directory不弹出令人讨厌的信息需要监视的整个参数集的树视图。
- 可用性
- 资源
- AD 服务
- Windows Time 服务
- DNS Client 服务
- File Replication Service
- Intersite Messaging 服务
- Kerberos 密钥分发中心服务
- Security Accounts Manager 服务
- Server 服务
- Workstation 服务
- RPC 服务
- Net Logon 服务
- AD 网络参数
- AB 客户端会话
- DS 通知队列大小
- LDAP 活动线程
- LDAP Bind Time
- LDAP 客户端会话
- 客户端数
- AD 数据库参数
- 数据库可用空间
- 数据库大小
- 数据库总大小
- 申请复制对象
- 剩余复制对象
- AD 进程监视器
- LSASS / NTFRS CPU 使用率
- LSASS / NTFRS 处理计数
- LSASS / NTFRS 进程文件读取
- LSASS / NTFRS 进程文件写入
- LSASS / NTFRS 进程内存
- AD 性能计数器
- DS 客户端绑定
- DS 服务器绑定
- 目录读取
- 目录写入
- Kerberos 身份验证
- LDAP 搜索
- LDAP UDP 操作
- LDAP 写入
- NTLM 身份验证
- 向里复制对象(总数)
- 向外复制对象(总数)
- 向里复制流量
- 向外复制流量
使用事件日志监视Active Directory
Active Directory 在发生故障时记录详细事件日志。可以从 Windows 事件查看器(开始 - 设置 - 控制面板 - 管理工具 - 事件查看器)查看事件日志。每个Active
Directory组件故障都有预定义的事件 ID 和故障事件的详细消息。OpManager 允许使用预定义的事件日志规则监视这些 Windows 事件日志。OpManager 监视事件日志并基于规则生成OpManager警报。
下面是一些可能希望OpManager生成警报的 ID。(请注意,这只是与Active Directory相关的各种服务和参数的众多 Windows 事件日志的子集。)
| 服务 |
事件 ID |
|
Net Logon 服务
|
5774, 5775, 5781, 5783, 5805
|
|
FRS 服务
|
13508, 13509, 13511, 13522, 13526
|
|
Windows Time 服务
|
13,14, 52 to 56, 60 to 64
|
|
LDAP 相关
|
40960, 40961
|
|
LSASS 相关
|
1000, 1015
|
|
Kerberos 相关
|
675, 676, 1002, 1005, 9004(最后三个与 Exchange Server 相关)
|
|
NTLM 身份验证
|
680, 681
|
OpManager的即时通知
除了监视Active Directory组件,OpManager 还在服务不可用时发出警报。配置重要服务和参数的响应时间或资源利用率阈值,可以远在实际发生问题前收到警报。OpManager 允许创建通知配置文件并将其分配到域控制器。任何一个监视器失败时,都会将电子邮件或 SMS 警报发送给预定义的 Id。
|