河南白癜风微信交流群 http://www.xianmeng.net.cn/fengshang/xinchao/870.html
1、背景
内存、硬盘、网卡等部件是数据中心的服务器故障率较多的配件,这些配件性能抖动、功能不稳定或故障将直接影响到业务稳定运行。不少用户愿意花大价钱购买高成本、高质量的硬件来构建云平台,硬件质量固然重要,无可厚非。但软件定义数据中心的核心在于软件定义,深信服作为软件定义数据中心解决方案供应商,提供极致的软件能力来极大缩小硬件质量影响业务的可靠性的概率并通过软件能力来降低客户对高昂的硬件成本投入。
2、问题
数据中心服务器常见硬件故障有内存、硬盘、网卡等。
硬盘常见故障因素有(含RAID):卡慢盘、硬盘损坏(含坏道、物理损坏)、硬盘不在位(接触不良、通道损坏)
内存故障因素:ECC和UEC
网络故障因素:光模块(损坏、光衰、接触不良、功率异常)、网卡(不兼容、固件低、MTU不准确、速率异常等)、网络亚健康:业务网络或存储网络丢包、错包、延时大、环路等。
3、解决办法
HCI新发布的版本优化了对硬件健康检测、处置机制,可检测主机硬件状态,还可跟踪主机健康状态。
3.1主机检测
在主机扩容、主机替换、主机检测场景,可对主机进行内存ECC、UECC检测,系统盘可读,RIAD卡故障,网络时延检测。
3.2亚健康设置
可设置亚健康检测开关、兜底机制-宕机告警等,此外,还优化处置策略,可设置亚健康主机的处置策略,可自动将亚健康主机上的虚机迁移到其他主机上
3.3网络检测
产品可以检测网络的错包率,网口闪断,DPDK、驱动与固件兼容性,网卡损坏,光模块的情况。
预览时标签不可点收录于话题#个上一篇下一篇