Update Kubernetes cluster eqiad to kubernetes 1.16
Closed, ResolvedPublic
Actions

Assigned To

Authored By

	akosiaris
	Mar 18 2021, 10:02 AM

Description

Sister task of T277191

We will be upgrading the kubernetes cluster in eqiad to kubernetes 1.16, calico 3.17 like we did for codfw in T277191

This includes:

Setting up new master VMs kubemaster100[12].eqiad.wmnet, VMs set up in T276204
Rebooting kubetcd[1004-1006].eqiad.wmnet for T273278
Reimaging worker nodes kubernetes[1001-1016].eqiad.wmnet
- Add role to kubernetes1017.codfw.wmnet (latest addition to cluster)
- Add homer/public change for kubernetes1017
- Pool kubernetes1017 to conftool
- With Kernel 4.19 T262527 (which also fixes issues described in T273279)

The plan is roughly:

Preparation

Prepare all needed patches
Aggregate the IPv4 pools into respective /21 and enable eqiad: https://gerrit.wikimedia.org/r/c/operations/deployment-charts/+/673955
Add the role to the new master VMs: https://gerrit.wikimedia.org/r/c/operations/puppet/+/673952
Enabling the kernel 4.19 profile for nodes: https://gerrit.wikimedia.org/r/c/operations/puppet/+/673949/1
Double check deployment-charts/helmfile.d/admin_ng has correct values populated and the cluster enabled
Private puppet patches for controller manager token - As 277741 in /srv/private on puppetmaster1001
The cergen configuration for kubemaster.svc.eqiad.wmnet - Same as above
Add homer/public patch for kubernetes1017: https://gerrit.wikimedia.org/r/c/operations/homer/public/+/672709/

Generate a list of all services (service FQDNs) for this DC (from namespaces or service.yaml) as $SERVICE_NAMES

apertium.svc.eqiad.wmnet
api-gateway.svc.eqiad.wmnet
blubberoid.svc.eqiad.wmnet
citoid.svc.eqiad.wmnet
cxserver.svc.eqiad.wmnet
echostore.svc.eqiad.wmnet
eventgate-analytics.svc.eqiad.wmnet
eventgate-analytics-external.svc.eqiad.wmnet
eventgate-logging-external.svc.eqiad.wmnet
eventgate-main.svc.eqiad.wmnet
eventstreams.svc.eqiad.wmnet
eventstreams-internal.svc.eqiad.wmnet
linkrecommendation.svc.eqiad.wmnet
mathoid.svc.eqiad.wmnet
mobileapps.svc.eqiad.wmnet
proton.svc.eqiad.wmnet
push-notifications.svc.eqiad.wmnet
recommendation-api.svc.eqiad.wmnet
sessionstore.svc.eqiad.wmnet
similar-users.svc.eqiad.wmnet
termbox.svc.eqiad.wmnet
wikifeeds.svc.eqiad.wmnet

Actions

Downtime masters and nodes
- sudo cookbook sre.hosts.downtime -r 'Reinitialize eqiad k8s cluster with new etcd' -t T277741 -H 24 'A:eqiad and (A:kubernetes-masters or A:kubernetes-workers)'
Downtime all services in the cluster
- Use https://gerrit.wikimedia.org/r/c/operations/puppet/+/674147 on alert1001 in a for loop with the service above.
Cut traffic to all services in the cluster
- Use confctl
Downtimes for:
- PROBLEM - PyBal backends health check on lvs2009 is CRITICAL: PYBAL CRITICAL - CRITICAL - kubemaster_6443: Servers acrab.codfw.wmnet are marked down but pooled. Use https://icinga.wikimedia.org/cgi-bin/icinga/extinfo.cgi?type=2&host=lvs1016&service=PyBal+backends+health+check and https://icinga.wikimedia.org/cgi-bin/icinga/extinfo.cgi?type=2&host=lvs1015&service=PyBal+backends+health+check
- PROBLEM - Prometheus k8s cache not updating on prometheus2004 is CRITICAL: instance=127.0.0.1 job=prometheus Use https://icinga.wikimedia.org/cgi-bin/icinga/status.cgi?search_string=k8s+cache#
- PROBLEM - Confd template for /srv/config-master/pybal/eqiad/... on puppetmaster2001 is CRITICAL: Compilation of file /srv/config-master/pybal/eqiad/... is broken. Use https://icinga.wikimedia.org/cgi-bin/icinga/status.cgi?search_string=confd+template+for+%2Fsrv%2Fconfig-master%2Fpybal# (this needs to be downtimed for both DCs!)
~~Switch restbase-async to eqiad:~~
- sudo confctl --object discovery select "name=eqiad,dnsdisc=restbase-async" set/pooled=false && sudo confctl --object discovery select "name=codfw,dnsdisc=restbase-async" set/pooled=true
Disable puppet on masters and nodes
- sudo cumin 'A:eqiad and (A:kubernetes-masters or A:kubernetes-workers)' 'disable-puppet "Reinitializing cluster - T277741"'
Power the masters off. ssh to ganeti01.svc.<site>.wmnet and
- sudo gnt-instance shutdown -f argon.eqiad.wmnet
- sudo gnt-instance shutdown -f chroline.eqiad.wmnet
Regenerate the eqiad master cert using cergen. sudo puppet cert clean kubemaster.svc.eqiad.wmnet. Then
- Revoke and remove the old cert on puppetmaster1001 with sudo puppet cert clean kubemaster.svc.eqiad.wmnet
- Apply the prepared patch cd /srv/private ; git apply T277741
- Run cergen sudo cergen --base-path /srv/private/modules/secret/secrets/certificates --generate /srv/private/modules/secret/secrets/certificates/certificate.manifests.d
- Copy certs to files/ssl - careful, it's manual and error prone yet.
Merge: https://gerrit.wikimedia.org/r/c/operations/homer/public/+/672709
- Run homer: https://wikitech.wikimedia.org/wiki/Homer#Running_Homer_from_cumin_hosts_(recommended)
Merge: https://gerrit.wikimedia.org/r/c/operations/puppet/+/673949
Start reimaging nodes (checkmarks in T273279)
Empty etcd (ETCDCTL_API=3 etcdctl --endpoints https://foobar.site.wmnet:2379 del "" --from-key=true)
Reboot etcd servers (checkmarks in T273278)
Merge: https://gerrit.wikimedia.org/r/c/operations/puppet/+/673952
Move profile::kubernetes::master::controllermanager_token: ... from private puppets hieradata/role/codfw/kubernetes/master.yaml to hieradata/role/common/kubernetes/master.yaml, part of T277741 patchfile in /srv/private
Image the new masters
Merge: https://gerrit.wikimedia.org/r/c/operations/deployment-charts/+/673955
helmfile sync admin_ng
Deploy all services (use deploy_all.sh script)
Check all services (service-checker if possible)
End downtime of services
Decommission the old masters

Action items

TBD

Details

Subject	Repo	Branch	Lines +/-
Decommission argon, chlorine, acrab, acrux	operations/puppet	production	+1 -25
Remove helmfile.d/admin	operations/deployment-charts	master	+0 -3 K
admin_ng: Enable eqiad	operations/deployment-charts	master	+4 -4
contool-data: Add kubernetes1017.eqiad.wmnet	operations/puppet	production	+1 -0
kubernetes eqiad: Apply role and hiera values to new masters	operations/puppet	production	+10 -29
kubernetes eqiad: Populate hiera keys for k8s worker updates	operations/puppet	production	+12 -39
Add kubemaster.svc.eqiad.wmnet.cert	operations/puppet	production	+23 -24
Add kubernetes1017 to BGP peers	operations/homer/public	master	+1 -0
downtime: Support services and other special icinga host	operations/puppet	production	+5 -2

Customize query in gerrit

Related Objects
Search...

		Status	Subtype	Assigned	Task
		Resolved		akosiaris	T244335 Upgrade kubernetes clusters to v1.16
		Resolved		JMeybohm	T277741 Update Kubernetes cluster eqiad to kubernetes 1.16

Event Timeline

akosiaris created this task.Mar 18 2021, 10:02 AM

Restricted Application added a subscriber: Aklapper. · View Herald TranscriptMar 18 2021, 10:02 AM

akosiaris triaged this task as High priority.Mar 18 2021, 10:04 AM

akosiaris updated the task description. (Show Details)

JMeybohm updated the task description. (Show Details)Mar 22 2021, 8:29 AM

JMeybohm updated the task description. (Show Details)Mar 22 2021, 8:32 AM

Change 672709 had a related patch set uploaded (by JMeybohm; owner: Alexandros Kosiaris):
[operations/homer/public@master] Add kubernetes1017 to BGP peers

https://gerrit.wikimedia.org/r/672709

gerritbot added a project: Patch-For-Review.Mar 22 2021, 8:41 AM

Change 673949 had a related patch set uploaded (by JMeybohm; owner: JMeybohm):
[operations/puppet@production] kubernetes eqiad: Populate hiera keys for k8s worker updates

https://gerrit.wikimedia.org/r/673949

Change 673952 had a related patch set uploaded (by JMeybohm; owner: JMeybohm):
[operations/puppet@production] kubernetes eqiad: Apply role and hiera values to new masters

https://gerrit.wikimedia.org/r/673952

JMeybohm updated the task description. (Show Details)Mar 22 2021, 9:08 AM

Change 673955 had a related patch set uploaded (by JMeybohm; owner: JMeybohm):
[operations/deployment-charts@master] admin_ng: Enable eqiad

https://gerrit.wikimedia.org/r/673955

Change 673956 had a related patch set uploaded (by JMeybohm; owner: JMeybohm):
[operations/deployment-charts@master] Remove helmfile.d/admin

https://gerrit.wikimedia.org/r/673956

JMeybohm updated the task description. (Show Details)Mar 22 2021, 9:19 AM

Change 674147 had a related patch set uploaded (by Alexandros Kosiaris; owner: Alexandros Kosiaris):
[operations/puppet@production] downtime: Support services and other special icinga host

https://gerrit.wikimedia.org/r/674147

akosiaris updated the task description. (Show Details)Mar 22 2021, 10:25 PM

akosiaris mentioned this in T277191: Update Kubernetes cluster codfw to kubernetes 1.16.Mar 23 2021, 8:03 AM

akosiaris mentioned this in P15018 (An Untitled Masterwork).

Change 674147 merged by Alexandros Kosiaris:
[operations/puppet@production] downtime: Support services and other special icinga host

https://gerrit.wikimedia.org/r/674147

Icinga downtime set by akosiaris@cumin1001 for 1 day, 0:00:00 18 host(s) and their services with reason: Reinitialize eqiad k8s cluster with new etcd

argon.eqiad.wmnet,chlorine.eqiad.wmnet,kubernetes[1001-1016].eqiad.wmnet

Mentioned in SAL (#wikimedia-operations) [2021-03-23T08:25:10Z] <akosiaris> beginning the k8s upgrade/reinit process. T277741

Mentioned in SAL (#wikimedia-operations) [2021-03-23T08:28:17Z] <akosiaris> downtime all services in T277741 for 24H

Mentioned in SAL (#wikimedia-operations) [2021-03-23T08:33:39Z] <akosiaris> eqiad services in k8s depooled. T277741

Mentioned in SAL (#wikimedia-operations) [2021-03-23T08:43:22Z] <akosiaris> poweroff argon and chlorine T277741

Change 672709 merged by jenkins-bot:
[operations/homer/public@master] Add kubernetes1017 to BGP peers

https://gerrit.wikimedia.org/r/672709

jenkins-bot mentioned this in rOHPU36b3fef29cb1: Add kubernetes1017 to BGP peers.Mar 23 2021, 8:48 AM

Change 674261 had a related patch set uploaded (by Alexandros Kosiaris; owner: Alexandros Kosiaris):
[operations/puppet@production] Add kubemaster.svc.eqiad.wmnet.cert

https://gerrit.wikimedia.org/r/674261

Change 674261 merged by Alexandros Kosiaris:
[operations/puppet@production] Add kubemaster.svc.eqiad.wmnet.cert

https://gerrit.wikimedia.org/r/674261

Change 673949 merged by JMeybohm:
[operations/puppet@production] kubernetes eqiad: Populate hiera keys for k8s worker updates

https://gerrit.wikimedia.org/r/673949

Mentioned in SAL (#wikimedia-operations) [2021-03-23T09:04:36Z] <akosiaris> empty etcd T277741

Script wmf-auto-reimage was launched by jayme on cumin1001.eqiad.wmnet for hosts:

['kubernetes1001.eqiad.wmnet', 'kubernetes1002.eqiad.wmnet', 'kubernetes1003.eqiad.wmnet', 'kubernetes1004.eqiad.wmnet', 'kubernetes1007.eqiad.wmnet', 'kubernetes1008.eqiad.wmnet', 'kubernetes1009.eqiad.wmnet', 'kubernetes1010.eqiad.wmnet', 'kubernetes1011.eqiad.wmnet', 'kubernetes1012.eqiad.wmnet', 'kubernetes1013.eqiad.wmnet', 'kubernetes1014.eqiad.wmnet']

The log can be found in /var/log/wmf-auto-reimage/202103230904_jayme_30602.log.

Mentioned in SAL (#wikimedia-operations) [2021-03-23T09:05:03Z] <akosiaris> reboot kubetcd100[456] for kernel upgrades. T277741 T273278

Change 673952 merged by Alexandros Kosiaris:
[operations/puppet@production] kubernetes eqiad: Apply role and hiera values to new masters

https://gerrit.wikimedia.org/r/673952

Change 674269 had a related patch set uploaded (by JMeybohm; owner: JMeybohm):
[operations/puppet@production] contool-data: Add kubernetes1017.eqiad.wmnet

https://gerrit.wikimedia.org/r/674269

JMeybohm updated the task description. (Show Details)Mar 23 2021, 9:39 AM

Change 674269 merged by Alexandros Kosiaris:
[operations/puppet@production] contool-data: Add kubernetes1017.eqiad.wmnet

https://gerrit.wikimedia.org/r/674269

Change 673955 merged by jenkins-bot:
[operations/deployment-charts@master] admin_ng: Enable eqiad

https://gerrit.wikimedia.org/r/673955

Mentioned in SAL (#wikimedia-operations) [2021-03-23T09:53:57Z] <akosiaris> deploy helmfile.d/admin_ng for eqiad T277741

Completed auto-reimage of hosts:

['kubernetes1003.eqiad.wmnet', 'kubernetes1002.eqiad.wmnet', 'kubernetes1010.eqiad.wmnet', 'kubernetes1008.eqiad.wmnet', 'kubernetes1013.eqiad.wmnet', 'kubernetes1007.eqiad.wmnet', 'kubernetes1012.eqiad.wmnet', 'kubernetes1004.eqiad.wmnet', 'kubernetes1009.eqiad.wmnet', 'kubernetes1001.eqiad.wmnet', 'kubernetes1014.eqiad.wmnet', 'kubernetes1011.eqiad.wmnet']

and were ALL successful.

Mentioned in SAL (#wikimedia-operations) [2021-03-23T10:56:14Z] <jayme> all services re-deployed to k8s eqiad - T277741

akosiaris mentioned this in T278223: linkrecommendation flap their readiness probes too often.Mar 23 2021, 11:08 AM

Mentioned in SAL (#wikimedia-operations) [2021-03-23T12:17:07Z] <akosiaris> remove all schedule downtimes for k8s cluster. T277741

Change 673956 merged by jenkins-bot:
[operations/deployment-charts@master] Remove helmfile.d/admin

https://gerrit.wikimedia.org/r/673956

Mentioned in SAL (#wikimedia-operations) [2021-03-23T12:58:00Z] <akosiaris> remove and decomission argon, chroline, acrab, acrux T277741, T277191

Change 674307 had a related patch set uploaded (by Alexandros Kosiaris; owner: Alexandros Kosiaris):
[operations/puppet@production] Decommission argon, chlorine, acrab, acrux

https://gerrit.wikimedia.org/r/674307

Mentioned in SAL (#wikimedia-operations) [2021-03-23T14:06:05Z] <akosiaris> pool a few services in eqiad k8s. T277741

Mentioned in SAL (#wikimedia-operations) [2021-03-23T14:20:03Z] <akosiaris> pool a few more services in eqiad k8s. T277741

Change 674307 merged by Alexandros Kosiaris:
[operations/puppet@production] Decommission argon, chlorine, acrab, acrux

https://gerrit.wikimedia.org/r/674307

Mentioned in SAL (#wikimedia-operations) [2021-03-23T14:43:27Z] <akosiaris> pool more services in eqiad k8s. T277741. Only the very large ones traffic wise are still on codfw

JMeybohm added a parent task: T244335: Upgrade kubernetes clusters to v1.16.Mar 23 2021, 4:12 PM

kostajh awarded a token.Mar 24 2021, 9:13 AM

JMeybohm mentioned this in T277677: Write a cookbook to set a k8s cluster in maintenance mode.Mar 24 2021, 9:16 AM

It's safe to say we did this and we have tasks for follow ups (mostly from T277191)

cookbooks.sre.hosts.decommission executed by akosiaris@cumin1001 for hosts: chlorine.eqiad.wmnet

chlorine.eqiad.wmnet (WARN)
- Failed downtime host on Icinga (likely already removed)
- Found Ganeti VM
- VM shutdown
- Started forced sync of VMs in Ganeti cluster ganeti01.svc.eqiad.wmnet to Netbox
- Removed from DebMonitor
- Removed from Puppet master and PuppetDB
- VM removed
- Started forced sync of VMs in Ganeti cluster ganeti01.svc.eqiad.wmnet to Netbox

Update Kubernetes cluster eqiad to kubernetes 1.16Closed, ResolvedPublicActions