RSS订阅 | 匿名投稿
您的位置:网站首页 > 服务支持 > 正文

阿里云:重启 manager 节点引发 docker swarm 集群宕机

作者:habao 来源: 日期:2018-4-30 3:38:07 人气: 标签:8g永久服务器

  以前多次进行过这样的操作,未曾遇到问题,而今天在将其中1台manager节点下线后竟然意外地引发了整个集群宕机 。。。21:39 - 22:02 左右,这个突发的故障给您带来很大的麻烦,请您谅解。受这次故障影响的站点有 闪存,博问,班级,园子,短信息,招聘,小组,网摘,新闻,openapi 。

  经过分析,我们得到的教训是尽可能避免只有2个manager节点的情况(manager节点采用的是投票机制,少数服从多数,2个节点的投票永远是1:1,这也是一种不稳定情况)。针对这个教训,我们调整了节点的部署,改为了 5 manager nodes + 1 worker nodes ,这样即使2个manger节点下线或出问题,也不会群龙无首。

  docker swarm 集群的不稳定让我们如履薄冰,今年我们会想尽一切办法彻底解决这个问题。

  本文来源于www.gimsh.com

读完这篇文章后,您心情如何?
0
0
0
0
0
0
0
0
本文网址: