跳转到内容

使用 Xymon 进行系统监控/其他文档/常见问题解答/通用监控系统功能

来自维基教科书,开放世界开放书籍

监控系统的需求

[编辑 | 编辑源代码]
  • 发送(电子邮件/短信/等)
  • 确认(显示谁正在处理问题)
  • 延迟
  • 发送给特定组/个人
  • 升级路径
  • 能够为每个服务测试设置严重性级别(例如,生产服务器上的磁盘与开发服务器上的磁盘)
    • 不同级别有不同的操作,即
      • 级别 1(磁盘 95% 满)警报帮助台
      • 级别 2(磁盘 98% 满)警报 IT 团队
  • 包含或集成到实时显示系统中(使用颜色:红色、黄色、绿色、紫色、白色和蓝色)
    • 红色
    • 黄色
    • 绿色
    • 白色
    • 紫色
  • 显示上次检查时间
  • 显示状态的“摘要”。例如,将 Unix 盒子分组并显示是否有任何问题
  • 能够自定义显示。例如,IT 帮助台的摘要页面、Unix 管理员的 Unix 页面、网络团队的网络页面。
  • 能够限制访问监控系统(我们不希望普通用户看到所有监控的内容)
  • 能够搜索主机
  • Microsoft Windows:Windows NT、Windows XP、Windows Vista。
    • 能够处理 Windows 事件日志和性能监控
  • UNIX:Solaris、AIX、HP-UX、IRIX、Linux、MacOS X、Tru64。
  • 服务(DNS/FTP/SMTP/LDAP/等)
  • 应用程序(Outlook、日历、Exchange、证书服务、Apache、Tomcat、等)
    • HTTP 应用程序监控
      • 预期返回内容
      • 可接受的响应时间(加载网页 10 秒不可接受)
    • 模拟 Windows 客户端应用程序。例如,点击图标启动 Word。输入一些文本。将文档保存到驱动器。关闭 Word。确保整个过程都成功。
  • 服务级别测试
    • 例如,Web 应用程序需要 Web 服务器、DNS、LDAP 等。如果 DNS 服务器出现故障,那么 Web 应用程序也会出现故障。
  • 允许进行集群测试(例如,5 个集群中的 1 个 Web 服务器出现故障,通知 Web 服务器停机,但不要通知 Web 服务停机)
  • 网络文件共享
  • SAN 监控
  • Citrix 服务器和服务
  • 打印机
    • 打印机错误,例如墨粉不足
    • 打印队列
  • SNMP 设备
  • 硬件(即 Dell DRAC、Sun Solaris),通过硬件卡和操作系统软件。
  • UPS
  • 其他环境输入(温度、湿度等)
  • 夜间备份
    • 如果备份花费的时间比预期长,则发出警告
    • 如果某些备份失败,则发出警报
  • 提供与 Cisco Works 的集成,或具有类似的功能
  • WAN 链路、LAN 链路、VLAN 等
    • 验证链路是否已连接
    • 验证带宽是否未饱和
  • Cisco/网络硬件
    • CPU 负载
    • 环境,例如电源、温度警报等
  • 能够与探测器交互(将流量分解为类型和大小)
  • 捕获和跟踪对硬件配置的更改

操作系统监控

[编辑 | 编辑源代码]
  • 磁盘
  • 内存
  • 进程
  • 响应时间
  • CPU 负载
  • 硬件故障
  • 操作系统警报(系统事件日志和 syslog)

数据库监控

[编辑 | 编辑源代码]
  • Oracle
  • MySQL
  • MSSQL
  • Ingres

文件监控

[编辑 | 编辑源代码]
  • 文件增长,如果存在等

自定义

[编辑 | 编辑源代码]
  • 易于扩展/自定义自己的测试(用于集成的 API)
  • 针对趋势发出警报,例如,1 个月内增长 10% 可能没问题,但 2 个小时内增长就不行。
  • 为网络带宽使用情况或任何收集的数据提供趋势分析
  • 与帮助台/故障单系统集成
    • 自动提交故障单
    • 自动更新现有故障单
  • 与(或包含)资产管理系统集成
    • 显示序列号、制造商、保修期限、维修/更换历史记录等
  • 与其他监控系统集成,例如 Ciscoworks、Oracle Enterprise Manager、HP、Compaq Insight Manager 等
  • 与 Microsoft Operations Manager (MOM) 集成,或提供 MOM 中可用的类似功能
  • 本地安装的代理来收集数据(并在本地暂时存储数据)
  • 中央轮询服务器能够联系代理以获取收集的数据
  • 本地代理能够将数据发送到轮询服务器
  • 能够远程更新代理
  • 历史保留
  • 提供报告
  • 必须能够为每个设备分配多个 IP 地址,并在需要时单独测试每个 IP 地址。
  • 对正在监控的服务的影响最小
  • 监控(和管理)客户端(远程设备)的努力最小
    • 不需要对现有基础设施进行升级(例如,必须运行最新版本的软件才能进行监控)
  • 远程监控服务器能够向中央服务器报告
  • 依赖关系感知(如果核心路由器出现故障,不要针对其后面的设备发送 100 个警报)
  • 允许计划停机(在将来禁用测试)
    • 需要授权
    • 需要显示原因
  • 允许定期维护窗口(应用程序每星期日晚上重启 - 不要发出警报)
  • 能够将测试委托给其他设备(例如,层级管理结构)
  • 监控系统中的审计历史记录(服务器添加日期、何时禁用监控以及原因等)
  • 系统必须能够自我监控
  • 能够监控 1000 多个设备
  • 允许可变轮询(某些测试每 5 分钟一次,某些测试每 1 分钟一次)
  • 高度可靠
  • 冗余(如果您的主要监控服务器出现故障,则备用第二台服务器)
  • 将默认阈值应用于设备组。允许对这些阈值进行“一次性”例外。例如,所有文件系统必须低于 90% 满。对于服务器 X,/opt 必须低于 94% 满,因为它当前为 93% 并且应该不会改变。
华夏公益教科书