如何对高性能计算群组进行监控(组图)

http://tech.ddvip.com   2008年09月08日    社区交流 收藏本文

内容摘要: 监控这一理念有多种解释方式。对于高性能计算(HPC),人们更多关注的是利用率和计算结点性能的指标,而非服务的可用性和问题通知。这篇文章主要关注前者,但Nagios和OpenNMS程序则在管理后两类问题上更有优势。

  假设一个场景:你是一个自负的系统管理员,现在有一个全新的计算群组坐落在你面前,LINPACK已经安装完毕,一系列工作已经井然有序地开展。一切就位,用户也很开心,你开始处理其他未解决的问题。这时,你突然收到一封邮件:“为什么运行速度变慢了?”或者一位项目经理来找你,并询问那个新款高价硬件是否已经安装。或许你在做来年的计划,因此需要知道近期的产品使用趋势。对系统进行监控,以建立基线数据和群组当前的性能信息,上述问题将易于解决。

  监控这一理念有多种解释方式。对于高性能计算(HPC),人们更多关注的是利用率和计算结点性能的指标,而非服务的可用性和问题通知。这篇文章主要关注前者,但Nagios和OpenNMS程序则在管理后两类问题上更有优势。

  在开始阅读这篇文章之前,先假设你走近了一个运行中的计算群组;一个文件形式为mod_php的机能网络服务器(也有GD支持);可轻松处理基础的系统管理工作、配置Apache结构和应用命令行工具。下列命令行运行于CentOS 5和Gentoo系统,但通用概念应该适用于所有Linux系统(很多其他类似UNIX系统的操作系统同样可用)。

  数据收集

  监控可分为两个程序。其一事实上是选取所需的指标,接着收集来自主机的数据。最通用的指标是CPU使用率、内存利用率、网络带宽以及磁盘I/O统计数据。这些数据体现出系统各个方面的性能状况,同时也可以指出哪一部分存在潜在问题或者是系统性能提高的瓶颈所在。数据收集到之后,第二项工作是将这些数据进行整理并分析。

  Linux系统提供了众多获取系统性能数据的方式。常用的工具有vmstat、iostat和netstat,还有很多其他不常用工具。这些程序在采用时通常被调整为非交互的形式——这是连续监控系统的重要理念。除非有易于解析的模态,否则交互式程序的运行状态会受到影响。部分程序(例如sar和atop)有数据收集模式,并且可生成大范围的指标的细节报告。即使其他的数据收集方式均失败了,也可直接从/proc或 /sys系统文件中得到数据,尽管你仅需要分析初级数据,以得到有用的信息。比如,不同的CPU利用率值事实上是通过计算/proc/stat中的数据得到。

来源:IT专家网    作者:IT专家网    责编:豆豆技术应用

正在加载评论...