互联网: September 2008 Archives

一套完整的运维管理系统应该包含以下五个模块
  1. 硬件拓扑管理维护
  2. 服务监控及统计
  3. 事件与故障检测告警
  4. 性能监控统计分析
  5. 访问统计分析

1.有点偏向资产管理,但是不仅仅是资产管理,从服务器全生命周期维护到网络拓扑维护,都应该包括
2和3基本上可以用nagios来一个大一统的包含, 搜狐和网易基本上就是这么做的, 但是nagios的报表系统还很不完善, 而且实际环境中, 非纯web网页性质的服务的参数设置很需要一番实战技巧, 弄不好就是一堆告警。
4.推荐使用cacti来实现,sohu由于历史遗留原因,基本采用mrtg。cacti取代mrtg已经有很长时间了,没有很多的历史遗留问题,可以直接使用cacti, 性能分析这块,本质上来说很繁琐,需要长期的紧盯跟踪分析,基本上上线测试的时候就可以搞定,真正的线上系统不出什么大问题倒是不必太紧盯,定期看看曲线就可以了。如果是访问量过大,服务器或者带宽撑不住了老板更高兴。
5.这块的数据比较的机密, 直接和市场营销部门联系。初期可以直接使用cnzz或者yahoo!的统计,也可以使用一些开源软件。对数据分析和访问跟踪有要求的话可以考虑一些商业产品,比如cnzz的wss, 还有银杏泰克的相关产品等等。真正的大型网站,访问统计及分析系统必须自己开发了,sina内部禁止使用msn和qq进行交流就是出于很明显的原因。

当然我这里想的比较的简单,真正产品化的运维系统应该和其他产品线相结合,不论开始是否使用开源软件,最后都要形成一套自己的体系。如果说开发方面Don't Reinvent the Wheel.,那么对于一个要成长为大型互联网公司的我们而言,就是河上有现成的桥,我们也要造一座自己的桥。Yahoo, Google, sina每一个前辈都证明了这个说法。
  • Subscribe to feed

关于这个存档

This page is a archive of entries in the 互联网 category from September 2008.

互联网: August 2008 是上一篇.

互联网: November 2008 是下一篇.

首页 或者 日志列表 中查找内容.