Kubernetes系列-deployment资源的yaml文件

1. 完整deployment yaml文件样例

apiVersion: extensions/v1beta1
kind: Deployment
metadata:
  annotations:
    deployment.kubernetes.io/revision: "1"
  creationTimestamp: "2022-12-05T09:00:37Z"
  generation: 1
  labels:
    app: app-manager-serving
    version: v1
  name: app-manager-serving-v1
  namespace: app-manager
  resourceVersion: "20221201"
  selfLink: /apis/extensions/v1beta1/namespaces/app-manager/deployments/app-manager-serving-v1
  uid: 34db5072-1e7c-11eb-b71b-fa163efea19e
spec:
  progressDeadlineSeconds: 600
  replicas: 1
  revisionHistoryLimit: 10
  selector:
    matchLabels:
      app: app-manager-serving
      version: v1
  strategy:
    rollingUpdate:
      maxSurge: 100%
      maxUnavailable: 100%
    type: RollingUpdate
  template:
    metadata:
      creationTimestamp: null
      labels:
        app: app-manager-serving
        version: v1
    spec:
      containers:
      - env:
        - name: VECLIB_MAXIMUM_THREADS
          value: "1"
        - name: MKL_NUM_THREADS
          value: "1"
        - name: NUMEXPR_NUM_THREADS
          value: "1"
        - name: NVIDIA_VISIBLE_DEVICES
          value: none
        - name: OPENBLAS_NUM_THREADS
          value: "1"
        - name: OMP_NUM_THREADS
          value: "1"
        image: hub.myimage.com/library/app-manager-serving:v1.2
        imagePullPolicy: IfNotPresent
        name: app-manager-serving
        ports:
        - containerPort: 8888
          name: app-manager
          protocol: TCP
        readinessProbe:
          failureThreshold: 2
          httpGet:
            httpHeaders:
            - name: Authorization
              value: Bearer eyJhbG......
            path: /openscoring/model/serving
            port: 8888
            scheme: HTTP
          initialDelaySeconds: 30
          periodSeconds: 30
          successThreshold: 1
          timeoutSeconds: 3
        resources:
          limits:
            cpu: "1"
            memory: "2147483648"
          requests:
            cpu: "2"
            memory: "536870912"
        terminationMessagePath: /dev/termination-log
        terminationMessagePolicy: File
      dnsPolicy: ClusterFirst
      nodeSelector:
        node: worker
      restartPolicy: Always
      schedulerName: default-scheduler
      securityContext: {}
      terminationGracePeriodSeconds: 30
status:
  availableReplicas: 1
  conditions:
  - lastTransitionTime: "2022-12-05T09:00:37Z"
    lastUpdateTime: "2022-12-02T09:00:37Z"
    message: Deployment has minimum availability.
    reason: MinimumReplicasAvailable
    status: "True"
    type: Available
  - lastTransitionTime: "2022-12-05T09:00:37Z"
    lastUpdateTime: "2020-12-05T09:01:36Z"
    message: ReplicaSet "app-manager-serving-v1-7bd89cd5c9" has successfully
      progressed.
    reason: NewReplicaSetAvailable
    status: "True"
    type: Progressing
  observedGeneration: 1
  readyReplicas: 1
  replicas: 1
  updatedReplicas: 1

2. yaml文件介绍

2.1 基本语法要求

大小写敏感
使用缩进表示层级关系
缩进不允许使用tab，只允许使用空格
缩进的空格数不重要，只要相同层级的元素左对齐即可

2.2 数据类型

对象

对象键值对使用冒号结构表示
key: value
，冒号后面要加一个空格。

key: 
     key1: value1
     key2: value2

数组

以
-
开头的行表示构成一个数组。

- value1
- value2
- value2

常量

字符串、布尔值、整数、浮点数、Null、时间、日期

2.3 模块

deployment
总共包含5个属性

apiVersion
：资源的版本号
kind
：资源的类型
metadata
：资源的元数据信息
spec
：资源的规格说明和预期状态
status
：资源的实际状态

2.3.1
`apiVersion`

指定api的版本,此值必须在kubectl api-versions中,以“组/版本”的格式。获取api版本列表方法如下：

#kubectl api-versions
admissionregistration.k8s.io/v1
admissionregistration.k8s.io/v1beta1
alert.alibabacloud.com/v1beta1
apiextensions.k8s.io/v1
apiextensions.k8s.io/v1beta1
apiregistration.k8s.io/v1
apiregistration.k8s.io/v1beta1
apps/v1
authentication.k8s.io/v1
authentication.k8s.io/v1beta1
authorization.k8s.io/v1
authorization.k8s.io/v1beta1
autoscaling/v1
autoscaling/v2beta1
autoscaling/v2beta2
batch/v1
batch/v1beta1
certificates.k8s.io/v1
certificates.k8s.io/v1beta1
coordination.k8s.io/v1
coordination.k8s.io/v1beta1
discovery.k8s.io/v1beta1
events.k8s.io/v1
events.k8s.io/v1beta1
extensions/v1beta1
flowcontrol.apiserver.k8s.io/v1beta1
log.alibabacloud.com/v1alpha1
metrics.k8s.io/v1beta1
networking.k8s.io/v1
networking.k8s.io/v1beta1
node.k8s.io/v1
node.k8s.io/v1beta1
nodes.alibabacloud.com/v1beta1
policy/v1beta1
rbac.authorization.k8s.io/v1
rbac.authorization.k8s.io/v1beta1
scheduling.alibabacloud.com/v1alpha1
scheduling.k8s.io/v1
scheduling.k8s.io/v1beta1
scheduling.sigs.k8s.io/v1beta1
securityinspector.alibabacloud.com/v1alpha1
snapshot.storage.k8s.io/v1
snapshot.storage.k8s.io/v1beta1
storage.alibabacloud.com/v1alpha1
storage.alibabacloud.com/v1beta1
storage.k8s.io/v1
storage.k8s.io/v1beta1
v1

2.3.2
`kind`

指定k8s资源类型，如kind: Deployment表示资源类型为Deployment。

2.3.3 metadata

metadata:
  annotations:                    # 自定义注释列表
  generation:                     # 部署版本     
  labels: 						  # 标签，用于标识该资源
    app:                          # 标签key:value，key为app
    version:                      # 标签key:value，key为version
  name: 						  # deployment名称，同一个命名空间下该名称不可重复
  namespace: 					  # deploymetn所属命名空间
  resourceVersion:                # 资源对象的每次修改，都会引起resourceVersion变化，且集群范围内唯一；当更新对象时，客户端需要返回该值到API服务器。如果版本值与etcd中存储的不匹配，API服务器会拒绝该更新。比如：当有两个线程访问对象时：如果A对于a对象进行了变更操作，就会产生新的对象；而当B在想对原来的a对象进行变更时，他已经不是原来的a，是新的对象a，变更会失败
  selfLink:                       #selfLink 是表示此对象的 URL。由系统填充。只读。已弃用。Kubernetes 将在 1.20 版本中停止传播该字段，并计划在 1.21 版本中删除该字段。
  uid:                            # UID 是该对象在时间和空间上的唯一值。它通常由服务器在成功创建资源时生成，并且不允许使用 PUT 操作更改。由系统填充。只读

2.3.4 spec

2.3.4.1 spec.progressDeadlineSeconds

可选字段，表示deployment controller等待多少秒才能确定（通过deployment status）deployment进程卡住了，单位：秒。

2.3.4.2 spec.replicas

可选字段，指定期望的pod数量，默认是1。

2.3.4.3 spec.revisionHistoryLimit

可选字段，用来指定可以保留的旧的ReplicaSet数量，余下的将在后台被当作垃圾收集，用于历史版本回滚。

2.3.4.4 spec.selector

可选字段，用来指定deployment管理的pod的范围。

2.3.4.5 spec.strategy

用来指定新的pod替换旧的pod的策略，包括RollingUpdate和Recreate两种：

RollingUpdate
- 使用滚动的方式更新pod
- 通过配置项maxUnavailable来指定在升级过程中不可用pod的最大数量；该值既可以是绝对值，也可以是百分比；通过百分比计算的绝对值向下取整。
- 通过配置项maxSurge来指定可以超过期望的pod数量的最大个数；该值既可以是绝对值，也可以是百分比；通过百分比计算的绝对值向上取整；
Recreate
- 在创建出新的pod之前会先杀掉所有已存在的pod。

2.3.4.6 spec.template

必填字段，设置deployment控制的pod的样式，它跟 pod有一模一样的schema，是嵌套的类型，并且不需要apiVersion和 kind字段。

spec.template: 
    metadata:
      creationTimestamp: null
      labels:
        app: 
        version: 
    spec:
      containers:
      - env:                      # 容器内的环境变量列表
        image:                    # 容器所对应镜像的名称
        imagePullPolicy:          # 容器拉取镜像的策略
        name:                     # 容器的名称
        ports:                    # 容器内部需要暴露的端口号列表
        - containerPort: 8888     # 端口号 
          name: aipaas            # 端口号名称
          protocol: TCP           # 端口协议，支持TCP和UDP，默认TCP
        readinessProbe:           # 健康检测
        resources:                # 资源配置
        terminationMessagePath: /dev/termination-log #日志保存路径
        terminationMessagePolicy: File
      dnsPolicy: ClusterFirst     # DNS策略
      nodeSelector:               # Pod调度策略
      restartPolicy:              # 容器重启策略
      schedulerName:              # 调度器
      terminationGracePeriodSeconds: # 容器删除策略
      securityContext: {}

2.3.4.6.1 环境变量

spec.containers.env: 
    - name: VECLIB_MAXIMUM_THREADS
      value: "1"
    - name: MKL_NUM_THREADS
      value: "1"
    - name: NUMEXPR_NUM_THREADS
      value: "1"
    - name: OPENBLAS_NUM_THREADS
      value: "1"
    - name: OMP_NUM_THREADS 
      value: "1"    
    - name: NVIDIA_VISIBLE_DEVICES
      value: none
    - name: ConCurrencyFlag
      value: "false"
    - name: SERVER_PROCESS_NUM
      value: "1"

VECLIB_MAXIMUM_THREADS、MKL_NUM_THREADS、NUMEXPR_NUM_THREADS、OPENBLAS_NUM_THREADS、OMP_NUM_THREADS 这五个环境变量是用于控制多线程的线程个数的，其值等于pod的cpu个数。
NVIDIA_VISIBLE_DEVICES为gpu配置，当pod中不含有gpu时，添加该环境变量并将其设置为none。
ConCurrencyFlag和SERVER_PROCESS_NUM为MPS相关的环境变量

2.3.4.6.2 容器拉取镜像的策略

Always：每次都会从镜像仓库拉取镜像
Never：仅使用本地镜像
IfNotPresent：优先使用本地镜像，若本地镜像不存在，则会拉取仓库镜

2.3.4.6.3 健康检测

livenessProbe：当健康检测不通过时会直接重启容器
readinessProbe：当健康检测不通过时会停止向容器发送流量

spec.readinessProbe: 
    httpGet:
      httpHeaders:
      - name: Authorization
        value: Bearer xxxxxxx # token
      path: /health           # 请求路径
      port: 8888              # 请求端口
      scheme: HTTP            # 请求协议
    initialDelaySeconds: 30   # 容器启动完成后多长时间进行首次健康检测，单位为秒
    periodSeconds: 30         # 健康监测时间周期，单位为秒，默认10秒一次
    successThreshold: 1       # 从检测错误到成功需要几次才认为健康检测成功，默认为1次
    failureThreshold: 2       # 检测失败几次后就认为健康检测失败，默认为3次
    timeoutSeconds: 3         # 健康检测响应超时时间，单位为秒，默认为1秒

2.3.4.6.4 资源信息

spec.resources: 
    limits:                     # 设置资源上限值
      cpu: "2"                  # cpu，单位为core
      memory: "2147483648"      # 内存，单位为Mib/Gib，若不添加单位，则默认为byte
      nvidia.com/gpu: "1"       # gpu
    requests:                   # 设置资源必需值
      cpu: "1"                 # cpu，若不足一个，则需要添加m
      memory: "536870912"       # 内存
      nvidia.com/gpu: "1"       # gpu

2.3.4.6.5 pod调度策略

spec.nodeSelector: 
    node: worker  # pod会调度到有worker标签的node上

2.3.4.6.6 重启策略

Always ：不管
pod
以何种方式终止运行都会将其重启
Never：不管
pod
以何种方式终止运行都不会将其重启
OnFailure：只有
pod
以非0退出码退出才会重启

spec.restartPolicy: Always

2.3.4.6.7 调度器

经过预选筛选和优选打分之后，K8S会选择分数最高的node来运行
pod
，如果最终有多个 node 的分数最高，那么 Scheduler 将从当中随机选择一个 node 来运行
pod。

spec.schedulerName: default-scheduler

2.3.4.6.8

优雅删除

spec.terminationGracePeriodSeconds: 30

pod的升级（删除）过程：

1）K8S首先会启动新的pod

2）当新的pod进入Ready状态时，K8S会创建Endpoint并将新的pod纳入负载均衡

3）K8S移除与老pod相关的Endpoint，并且将老pod的状态设置为Terminating，此时将不会有新的请求到达老pod

4）同时K8S会给老pod发送SIGTERM信号，并且等待 terminationGracePeriodSeconds 这么长的时间。(默认为30秒)

5）超过terminationGracePeriodSeconds等待时间后， K8S会强制结束老pod

6）所以，terminationGracePeriodSeconds 要设置一个合适的值，至少保证所有现存的请求能被正确处理并返回程序处理SIGTERM信号，并且保证所有事务完成后再关闭程序

2.3.5 status

表示K8S对象在当前集群中实际的状态，往往通过资源的Controller控制。

status: 
  conditions:
  - lastTransitionTime: "2020-10-27T01:06:52Z"
    lastUpdateTime: "2020-10-27T01:06:52Z"
    message: Deployment has minimum availability.
    reason: MinimumReplicasAvailable
    status: "True"
    type: Available
  - lastTransitionTime: "2020-10-27T01:06:52Z"
    lastUpdateTime: "2020-10-27T01:07:52Z"
    message: ReplicaSet "uvzobilkwkmsfqca-serving-v1-d9c5f7bdf" has successfully progressed.
    reason: NewReplicaSetAvailable
    status: "True"
    type: Progressing
  availableReplicas: 1
  observedGeneration: 1    # 观察到的实例
  readyReplicas: 1         # 准备好的实例
  replicas: 1              # 实例总数
  updatedReplicas: 1       # 已更新的实例

2.3.6 MPS

使用gpu的在线服务可以通过开启MPS来提升gpu的使用率

# spec.containers.env
- name: ConCurrencyFlag
  value: "True"
- name: SERVER_PROCESS_NUM
  value: "1"

lifecycle:
   preStop:
     exec:
       command:
         - /bin/bash
         - /model_serving/model_server/stop_mps.sh

securityContext: 
    capabilities:
      add:
        - SYS_ADMIN
      procMount: Default

原文链接：https://blog.csdn.net/ygq13572549874/article/details/128816149