Upgrade paws-dev to Kubernetes 1.22 in codfw1dev
Closed, ResolvedPublic
Actions

Assigned To

Authored By

	rook
	Jan 9 2023, 2:52 PM

Description

Test the magnum upgrade in codfw1dev

openstack coe cluster upgrade paws-dev paws-dev-k8s22

Related Objects
Search...

Status	Assigned	Task
Resolved	rook	T328489 Upgrade paws to Kubernetes 1.23 in prod
Resolved	rook	T327264 Upgrade paws to Kubernetes 1.22 in prod
Resolved	rook	T328488 Upgrade paws-dev to Kubernetes 1.23 in codfw1dev
Resolved	rook	T326563 Upgrade paws-dev to Kubernetes 1.22 in codfw1dev
Resolved	rook	T326258 k8s 1.22 magnum template for PAWS
Resolved	rook	T326554 Move PAWS to magnum
Resolved	rook	T326264 Deploy paws to magnum
Resolved	rook	T326257 k8s 1.21 magnum template for PAWS
Resolved	rook	T326260 Normalize PAWS resource usage
Resolved	rook	T326262 Temporary increase of PAWS quota
Resolved	None	T325540 Nodeport for ingress-nginx
Resolved	rook	T325746 ingress-nginx
Resolved	rook	T325812 upgrade jupyterhub chart
Resolved	rook	T326268 New trove db for magnum
Resolved	rook	T326276 Deploy paws dev to codfw1dev
Resolved	Andrew	T326331 Deploy paws-dev trove db
Resolved	rook	T326588 open refine not loading in codfw1dev
Resolved	rook	T326631 Setup nfs for paws-dev
Resolved	rook	T326629 Setup DNS for paws-dev.codfw1dev.wmcloud.org.
Resolved	rook	T326723 env vars for nbserve and renderer requests

Event Timeline

rook created this task.Jan 9 2023, 2:52 PM

rook added a subtask: T326258: k8s 1.22 magnum template for PAWS.

The upgrade command initially fails, giving an UPGRADE_FAILED status. At this point the control node is upgrade to k8s 1.22.11 however all of the worker nodes remain on 1.21.8
Running:

openstack coe cluster resize paws-dev 3

Will resume the upgrade.
The worker nodes will then be cordoned and upgraded one at a time. However they return, and briefly are set to "Ready" as reported by kubectl get nodes but quickly switch to NotReady describe shows:

Normal  NodeNotReady             2m37s (x2 over 6m2s)   node-controller  Node paws-dev-rkc62ygu4fei-node-2 status is now: NodeNotReady

Which, when all the worker nodes reach this state, starves the cluster of resource and nothing will schedule.

Running:

openstack coe cluster resize paws-dev 0 # wait a few minutes
openstack coe cluster resize paws-dev 3

Brings the worker nodes back and upgraded, however the hub container in paws does not seem to reach a ready state. This may be a paws thing.

rook added a subtask: T326554: Move PAWS to magnum.Jan 18 2023, 11:54 AM

This does not appear to work with a direct upgrade. We'll use a blue/green deploy as noted in

https://wikitech.wikimedia.org/wiki/PAWS/Admin#Deployment

rook added a parent task: T327264: Upgrade paws to Kubernetes 1.22 in prod.Jan 18 2023, 11:58 AM

rook closed subtask T326554: Move PAWS to magnum as Resolved.Jan 18 2023, 4:55 PM

rook closed this task as Resolved.Jan 20 2023, 3:09 PM

rook closed subtask T326258: k8s 1.22 magnum template for PAWS as Resolved.Jan 31 2023, 2:39 PM

rook added a parent task: T328488: Upgrade paws-dev to Kubernetes 1.23 in codfw1dev.Jan 31 2023, 7:42 PM

Upgrade paws-dev to Kubernetes 1.22 in codfw1devClosed, ResolvedPublicActions

Description

Related ObjectsSearch...

Event Timeline

Upgrade paws-dev to Kubernetes 1.22 in codfw1dev
Closed, ResolvedPublic
Actions

Related Objects
Search...