代码编织梦想

头图.jpg

作者 | 行松 阿里巴巴云原生团队
来源 | Serverless 公众号,整理自《Serverless 技术公开课》

应用发布、服务升级一直是一个让开发和运维同学既兴奋又担心的事情。

兴奋的是有新功能上线,自己的产品可以对用户提供更多的能力和价值;担心的是上线的过程会不会出现意外情况影响业务的稳定性。确实,在应用发布和服务升级时,线上问题出现的可能性更高,本文我们将结合 Serverless 应用引擎(以下简称 SAE)就 Serverless 架构下,讨论如何保障上线过程中服务的优雅下线。

在平时的发布过程中,我们是否遇到过以下问题:

  • 发布过程中,出现正在执行的请求被中断?
  • 下游服务节点已经下线,上游依然继续调用已经下线的节点导致请求报错,进而导致业务异常?
  • 发布过程造成数据不一致,需要对脏数据进行修复。

有时候,我们把发版安排在凌晨两三点,赶在业务流量比较小的时候,心惊胆颤、睡眠不足、苦不堪言。那如何解决上面的问题,如何保证应用发布过程稳定、高效,保证业务无损呢?首先,我们来梳理下造成这些问题的原因。

场景分析

1.png

上图描述了我们使用微服务架构开发应用的一个常见场景,我们先看下这个场景的服务调用关系:

  • 服务 B、C 把服务注册到注册中心,服务 A、B 从注册中心发现需要调用的服务;
  • 业务流量从负载均衡打到服务 A,在 SLB 上配置服务 A 实例的健康检查,当服务 A 有实例停机的时候,相应的实例从 SLB 摘掉;服务 A 调用服务 B,服务 B 再调用服务 C;

图中有两类流量,南北向流量(即通过 SLB 转发到后端服务器的业务流量,如业务流量 -> SLB -> A 的调用路径)和东西向流量(通过注册中心服务中心服务发现来调用的流量,如 A -> B 的调用路径),下面针对这两类流量分别进行分析。

南北向流量

南北向流量存在问题

当服务 A 发布的时候,服务 A1 实例停机后,SLB 根据健康检查探测到服务 A1 下线,然后把实例从 SLB 摘掉。实例 A1 依赖 SLB 的健康检查从 SLB 上摘掉,一般需要几秒到十几秒的时间,在这个过程中,如果 SLB 有持续的流量打入,就会造成一些请求继续路由到实例 A1,导致请求失败;

服务 A 在发布的过程中,如何保证经过 SLB 的流量不报错?我们接着看下 SAE 是如何做的。

南北向流量优雅升级方案

2.png

如上文所提,请求失败的原因在于后端服务实例先停止掉,然后才从 SLB 摘掉,那我们是不是可以先从 SLB 摘掉服务实例,然后再对实例进行升级呢?

按照这个思路,SAE 基于 K8S service 的能力给出了一种方案,当用户在通过 SAE 为应用绑定 SLB 时,SAE 会在集群中创建一个 service 资源,并把应用的实例和 service 关联,CCM 组件会负责 SLB 的购买、SLB 虚拟服务器组的创建,并且把应用实例关联的 ENI 网卡添加到虚拟服务器组中,用户可以通过 SLB 来访问应用实例;当应用发布时,CCM 会先把实例对应的 ENI 从虚拟服务器组中摘除,然后再对实例进行升级,从而保证流量不丢失。

这就是 SAE 对于应用升级过程中关于南北向流量的保障方案。

东西向流量

东西向流量存在问题

在讨论完南北向流量的解决方案后,我们再看下东西向流量,传统的发布流程中,服务提供者停止再启动,服务消费者感知到服务提供者节点停止的流程如下:

3.png

  • 1.服务发布前,消费者根据负载均衡规则调用服务提供者,业务正常。
  • 2.服务提供者 B 需要发布新版本,先对其中的一个节点进行操作,首先是停止 java 进程。
  • 3.服务停止过程,又分为主动注销和被动注销,主动注销是准实时的,被动注销的时间由不同的注册中心决定,最差的情况会需要 1 分钟。
    • 1)如果应用是正常停止,Spring Cloud 和 Dubbo 框架的 Shutdown Hook 能正常被执行,这一步的耗时可以忽略不计。
    • 2)如果应用是非正常停止,比如直接使用 kill -9 停止,或者 Docker 镜像构建的时候 java 应用不是 1 号进程且没有把 kill 信号传递给应用。那么服务提供者不会主动去注销服务节点,而是在超过一段时间后由于心跳超时而被动地被注册中心摘除。
  • 4.服务注册中心通知消费者,其中的一个服务提供者节点已下线。包含推送和轮询两种方式,推送可以认为是准实时的,轮询的耗时由服务消费者轮询间隔决定,最差的情况下需要 1 分钟。
  • 5.服务消费者刷新服务列表,感知到服务提供者已经下线了一个节点,这一步对于 Dubbo 框架来说不存在,但是 Spring Cloud 的负载均衡组件 Ribbon 默认的刷新时间是 30 秒 ,最差情况下需要耗时 30 秒。
  • 6.服务消费者不再调用已经下线的节点。

从第 2 步到第 6 步的过程中,Eureka 在最差的情况下需要耗时 2 分钟,Nacos 在最差的情况下需要耗时 50 秒。在这段时间内,请求都有可能出现问题,所以发布时会出现各种报错,同时还影响用户的体验,发布后又需要修复执行到一半的脏数据。最后不得不每次发版都安排在凌晨两三点发布,心惊胆颤,睡眠不足,苦不堪言。

东西向流量优雅升级方案

4.png

经过上文的分析,我们看,在传统发布流程中,客户端有一个服务调用报错期,原因就是客户端没有及时感知到服务端下线的实例。在传统发布流程中,主要是借助注册中心通知消费者来更新服务提供者列表,那能不能绕过注册中心,服务提供者直接通知服务消费者呢?答案是肯定的,我们主要做了两件事情:

  1. 服务提供者应用在发布前后主动向注册中心注销应用,并将应用标记为已下线的状态;将原来的停止进程阶段注销服务变成了 prestop 阶段注销服务。
  2. 在接收到服务消费者请求时,首先会正常处理本次调用,并通知服务消费者此节点已下线,服务消费者会立即从调用列表删除此节点;在这之后,服务消费者不再调用已经下线的节点。这是将原来的依赖于 注册中心推送,做到了服务提供者直接通知消费者从调用列表中摘除自己。

通过上面这个方案,就使得下线感知的时间大大减短,从原来的分钟级别做到准实时,确保应用在下线时能做到业务无损。

分批发布和灰度发布

上文介绍的是 SAE 在处理优雅下线方面的一些能力,在应用升级的过程中,只有实例的优雅下线是不够的,还需要有一套配套的发布策略,保证我们新业务是可用的,SAE 提供分批发布和灰度发布的能力,可以使得应用的发布过程更加省心省力;

我们先介绍下灰度发布,某应用包含 10 个应用实例,每个应用实例的部署版本为 Ver.1 版本,现需将每个应用实例升级为 Ver.2 版本。

5.png

从图中可以看出,在发布的过程中先灰度 2 台实例,在确认业务正常后,再分批发布剩余的实例,发布的过程中始终有实例处于运行状态,实例升级过程中依照上面的方案,每个实例都有优雅下线的过程,这就保证了业务无损。

再来看下分批发布,分批发布支持手动、自动分批;还是上面的 10 个应用实例,假设将所有应用实例分 3 批进行部署,根据分批发布策略,该发布流程如图所示,就不再具体介绍了。

6.png

最后针对在 SAE 上应用灰度发布的过程进行演示,点击链接观看演示过程:https://developer.aliyun.com/lesson_2026_19009

Serverless 公众号,发布 Serverless 技术最新资讯,汇集 Serverless 技术最全内容,关注 Serverless 趋势,更关注你落地实践中的遇到的困惑和问题。

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 本文链接: https://blog.csdn.net/weixin_42477427/article/details/110948474

【剑指offer中等部分10】整数中1出现的次数(java)-爱代码爱编程

一、题目描述 求出1-13的整数中1出现的次数,并算出100-1300的整数中1出现的次数。为此他特别数了一下1~13中包含1的数字有1、10、11、12、13因此共出现6次,但是对于后面问题他就没辙了。ACMer希望你们帮帮他,并把问题更加普遍化,可以很快的求出任意非负整数区间中1出现的次数(从1 到 n 中1出现的次数)。 二、分析 2.1 方法

IPTV系统工业园区职工宿舍电视娱乐休闲方案-爱代码爱编程

工业园区剧集的人员比较多,虽然生活比较方便,但是离市区一般也比较远,娱乐相对来说要少一些,而视频是很多人员休闲时间的主要方式,而给员工提供一些自办的园区或者集团直播节目,不仅仅可以丰富员工的生活还能增强企业内部的凝聚力以,也可以作为对外宣传的窗口,可以让新入职人员或者外来人员更好的了解本工业园区和集团的基本情况。 那么这些场景下如何设计电视娱乐休闲方案呢

java循环-爱代码爱编程

循环流程语句:(重复做某件事) for 循环 (用于确定次数的循环) // 计数的容器 判断是满足重复的次数 计数的变化 for (int i = 1; i <= 10 ; i++) { System.out.println("抄代码"); } while循环 条件如果为true一直执行 一般用于做一些 死循

Java连接Mysql数据库详细代码-爱代码爱编程

数据库连接类: package util; import java.sql.*; /** * TODO * * @author * @date 2020/12/10 9:07 */ public class DBUtil { private final static String DRIVER = "com.mysql.jdbc.

SpringBoot Nacos 安装、注解开发配置自动加载更新并监听-爱代码爱编程

SpringBoot Nacos 安装及配置入门Demo 基于注解 安装下载tar包 github https://github.com/alibaba/nacos/releases/tag/1.4.0 不过下载的有时候很慢 csdn https://download.csdn.net/download/HumorChen99/133

MOOC华东师范大学 Java核心技术(进阶)第八章作业 基于RMI技术,实现客户端和服务端功能-爱代码爱编程

题目: 基于RMI技术,实现客户端和服务端功能。 服务端需要提供编译一个类和运行一个类的功能(采用Runtime的exec方法)。 客户端接受用户的输入,如输入javac HelloWorld,就通过RMI方法请求服务端的编译HelloWorld功能; 如输入java HelloWorld,就通过RMI方法请求服务端的执行HelloWorld功能。

八、Service – 统一入口访问应用-爱代码爱编程

概述 • 防止Pod失联(服务发现) • 定义一组Pod的访问策略(负载均衡) • 支持ClusterIP,NodePort以及LoadBalancer三种类型 • Service的底层实现主要有iptables和ipvs二种网络模式 如果要确保每次都将来自特定客户端的连接传递到同一Pod, 通过设置service.spec.sessionAffinit

系统架构师从入门到精通1.0 网络引导批量安装CentOS7系统-爱代码爱编程

前言 老黑十余年IT从业经历中,对于安装操作系统是深恶痛绝的,一路从windows server安装、rhel安装,centos安装走来,从起初的自己摸索,再到后来阅读和参考网络上的资料,总结并运用到实际工作中的安装方法还真是多种多样呀,有光盘,U盘,硬盘,网络,各种引导,鼠标一路点点点,再到鼠标加键盘,慢慢越装越专业了。老黑在互联网上各位网友的专业安装

Linux操作系统静态网站服务器搭建方法汇总-干货-爱代码爱编程

使用 Apache 服务部署静态网站 本文将完成:基于 httpd 服务程序实用功能的部署实验。包括: (1)httpd 服务程序的基本安装部署 (2)网站主页和口令加密认证方式的实现 (3)基于 IP 地址、主机名(域名)、端口号部署虚拟主机 本文属实验环境,实验环境使用Vmware workstation中虚拟机完成演示。

FASTDFS磁盘不足10%,如何迁移-爱代码爱编程

FASTDFS磁盘不足10%,如何迁移 fastDFS的默认安装目录为home,产生的文件也会保存在home下的子目录中。 由于程序运行,产生的文件越来越多,可能会导致系统盘被占满。 这时,需要迁移fastdfs目录到其他硬盘目录。 当出现这种情况,进行以下操作可以解决 一、停止fastDFS服务** 跟踪服务器(Tracker Server)

docker快速安装部署gitlab-爱代码爱编程

docker快速安装部署gitlab 安装docker 连接阿里云服务器(当然可以是其他云) 安装依赖 yum install -y yum-utils device-mapper-persistent-data lvm2 添加yum仓库 yum-config-manager --add-repo https://download.docker.com/

KuberShere产品功能介绍-爱代码爱编程

概述 KubeSphere 是在 Kubernetes 之上构建的面向云原生应用的分布式操作系统,支持多云与多集群管理,提供全栈的 IT 自动化运维的能力,简化企业的 DevOps 工作流。它的架构可以非常方便地使第三方应用与云原生生态组件进行即插即用 (plug-and-play) 的集成。 作为全栈化容器部署与多租户管理平台,KubeSphere