使用 Xymon 进行系统监控/其他文档/常见问题解答/通用监控系统功能
外观
- 发送(电子邮件/短信/等)
- 确认(显示谁正在处理问题)
- 延迟
- 发送给特定组/个人
- 升级路径
- 能够为每个服务测试设置严重性级别(例如,生产服务器上的磁盘与开发服务器上的磁盘)
- 不同级别有不同的操作,即
- 级别 1(磁盘 95% 满)警报帮助台
- 级别 2(磁盘 98% 满)警报 IT 团队
- 不同级别有不同的操作,即
- 包含或集成到实时显示系统中(使用颜色:红色、黄色、绿色、紫色、白色和蓝色)
- 红色
- 黄色
- 绿色
- 白色
- 紫色
- 显示上次检查时间
- 显示状态的“摘要”。例如,将 Unix 盒子分组并显示是否有任何问题
- 能够自定义显示。例如,IT 帮助台的摘要页面、Unix 管理员的 Unix 页面、网络团队的网络页面。
- 能够限制访问监控系统(我们不希望普通用户看到所有监控的内容)
- 能够搜索主机
- Microsoft Windows:Windows NT、Windows XP、Windows Vista。
- 能够处理 Windows 事件日志和性能监控
- UNIX:Solaris、AIX、HP-UX、IRIX、Linux、MacOS X、Tru64。
- 服务(DNS/FTP/SMTP/LDAP/等)
- 应用程序(Outlook、日历、Exchange、证书服务、Apache、Tomcat、等)
- HTTP 应用程序监控
- 预期返回内容
- 可接受的响应时间(加载网页 10 秒不可接受)
- 模拟 Windows 客户端应用程序。例如,点击图标启动 Word。输入一些文本。将文档保存到驱动器。关闭 Word。确保整个过程都成功。
- HTTP 应用程序监控
- 服务级别测试
- 例如,Web 应用程序需要 Web 服务器、DNS、LDAP 等。如果 DNS 服务器出现故障,那么 Web 应用程序也会出现故障。
- 允许进行集群测试(例如,5 个集群中的 1 个 Web 服务器出现故障,通知 Web 服务器停机,但不要通知 Web 服务停机)
- 网络文件共享
- SAN 监控
- Citrix 服务器和服务
- 打印机
- 打印机错误,例如墨粉不足
- 打印队列
- SNMP 设备
- 硬件(即 Dell DRAC、Sun Solaris),通过硬件卡和操作系统软件。
- UPS
- 其他环境输入(温度、湿度等)
- 夜间备份
- 如果备份花费的时间比预期长,则发出警告
- 如果某些备份失败,则发出警报
- 提供与 Cisco Works 的集成,或具有类似的功能
- WAN 链路、LAN 链路、VLAN 等
- 验证链路是否已连接
- 验证带宽是否未饱和
- Cisco/网络硬件
- CPU 负载
- 环境,例如电源、温度警报等
- 能够与探测器交互(将流量分解为类型和大小)
- 捕获和跟踪对硬件配置的更改
- 磁盘
- 内存
- 进程
- 响应时间
- CPU 负载
- 硬件故障
- 操作系统警报(系统事件日志和 syslog)
- Oracle
- MySQL
- MSSQL
- Ingres
- 文件增长,如果存在等
- 易于扩展/自定义自己的测试(用于集成的 API)
- 针对趋势发出警报,例如,1 个月内增长 10% 可能没问题,但 2 个小时内增长就不行。
- 为网络带宽使用情况或任何收集的数据提供趋势分析
- 与帮助台/故障单系统集成
- 自动提交故障单
- 自动更新现有故障单
- 与(或包含)资产管理系统集成
- 显示序列号、制造商、保修期限、维修/更换历史记录等
- 与其他监控系统集成,例如 Ciscoworks、Oracle Enterprise Manager、HP、Compaq Insight Manager 等
- 与 Microsoft Operations Manager (MOM) 集成,或提供 MOM 中可用的类似功能
- 本地安装的代理来收集数据(并在本地暂时存储数据)
- 中央轮询服务器能够联系代理以获取收集的数据
- 本地代理能够将数据发送到轮询服务器
- 能够远程更新代理
- 历史保留
- 提供报告
- 必须能够为每个设备分配多个 IP 地址,并在需要时单独测试每个 IP 地址。
- 对正在监控的服务的影响最小
- 监控(和管理)客户端(远程设备)的努力最小
- 不需要对现有基础设施进行升级(例如,必须运行最新版本的软件才能进行监控)
- 远程监控服务器能够向中央服务器报告
- 依赖关系感知(如果核心路由器出现故障,不要针对其后面的设备发送 100 个警报)
- 允许计划停机(在将来禁用测试)
- 需要授权
- 需要显示原因
- 允许定期维护窗口(应用程序每星期日晚上重启 - 不要发出警报)
- 能够将测试委托给其他设备(例如,层级管理结构)
- 监控系统中的审计历史记录(服务器添加日期、何时禁用监控以及原因等)
- 系统必须能够自我监控
- 能够监控 1000 多个设备
- 允许可变轮询(某些测试每 5 分钟一次,某些测试每 1 分钟一次)
- 高度可靠
- 冗余(如果您的主要监控服务器出现故障,则备用第二台服务器)
- 将默认阈值应用于设备组。允许对这些阈值进行“一次性”例外。例如,所有文件系统必须低于 90% 满。对于服务器 X,/opt 必须低于 94% 满,因为它当前为 93% 并且应该不会改变。