高可用

致云云管理平台提供多种高可用策略,保障云服务的可用性。

故障迁移

故障迁移,当计算资源池设置为高可用+共享存储模式时,当某计算节点故障时,平台会自动将云主机实例迁移到新节点上重新启动,恢复服务。

工作流程如下图所示:

_images/17_failover.png
  1. 计算资源节点(Node Client)故障
  2. 主控节点(Control Server)检测到NC故障
  3. 主控节点根据目前故障节点同一资源池内各活动计算资源节点的实时负载情况,重新选择新的承载节点
  4. 主控节点向新计算节点传送故障云主机配置,新建相同的云主机实例,连接后端存储的镜像文件,重新启动云主机
  5. 主控节点向智能路由要求修改前端接入指向,将原接入地址转向新的云主机实例,云主机服务正式恢复

主动重均衡

在使用共享存储模式下,当某计算节点承载了太多云主机实例,导致负载过高时,可以使用主动重均衡方式,手动将高负载节点上的部分云主机实例,迁移到其他计算节点上,避免单节点压力过大,提升整体使用寿命和可用性。

_images/18_active_rebalance.png

多路径接入

在致云云管理平台设计中,智能路由节点(Intelligent Router)可以自动组成多路径集群。

外部网络对云主机的访问请求,发送给集群内的任一智能路由节点都可以保证到达最终云主机,当部署了多个职能路由节点和多个前端负载均衡器之后,就能够形成完整的多路径接入,路径上任一节点故障,都不会影响外部用户访问云主机。

智能路由集群部署无需人工设置,完全由平台自动生成,当新智能路由节点启动后,会自动从主控节点同步所有网络规则,同步完成后,即可处理发给云主机的请求。

智能路由集群运行时,所有节点都会持续同步更新最新规则,无需手动更新。

_images/19_multipath.png