Paws Kubernetes clusters
Closed, ResolvedPublic
Actions

Assigned To

Authored By

	taavi
	Mar 25 2022, 4:36 PM

Description

Proposal Title: Prometheus metrics for Toolforge/Toolsbeta/Paws Kubernetes clusters

Brief description: Proposal to add local Prometheus instances in the VPS projects hosting kubeadm based Kubernetes clusters for Kubernetes system metrics, and hooking those up to Alertmanager.

Why:
The first part of this proposal involves splitting PAWS from tools-prometheus plus building tools-prometheus instances in the toolsbeta project. PAWS is included in the tools prometheus mostly for historical reasons, and splitting it off reduces coupling between those projects and simplifies building a copy in toolsbeta. Having prometheus in toolsbeta would let us test changes without worrying about breaking the production environment. Kubernetes metrics consume a fair bit of space, so we currently don't want those in the shared metricsinfra install.

The second part involves hooking those local prometheus instances into the metricsinfra alertmanager instance so we can be notified when a problem was found in the metrics. This is expanding the scope of metricsinfra a bit (bring-your-own-prometheus for alerts), but I think that's fine for this instance -- alertmanager supports multiple prometheus instances just fine, the karma dashboard acls should be able to handle this if we tag those metrics right and this means that we have one dashboard (prometheus-alerts.wmcloud.org) instead of four.

Risks:

Incomplete/missing metrics makes service troubleshooting harder
Incomplete/missing alerts can lead into (more) user-visible service downtime
Prometheus needs kubernetes read-only credentials - risk of cluster compromise?
Hooking up to metricsinfra alertmanagers in theory gives admins in those projects cloud-wide powers

Design documentation: none yet

More info:
Open question: where to manage alert rules?

Details

Subject	Repo	Branch	Lines +/-
P:toolforge::prometheus: deploy alert rules from GitLab	operations/puppet	production	+8 -0
alerts: Allow customizing the git repository info	operations/puppet	production	+22 -17
P:(toolforge\|wmcs::paws)::prometheus: configure alertmanager endpoint	operations/puppet	production	+103 -14
P:metricsinfra::alertmanager: proxy access for trusted projects	operations/puppet	production	+41 -1
P:toolforge::prometheus: add toolsbeta support	operations/puppet	production	+70 -20
ssl: Add dummy key for toolsbeta k8s prometheus	labs/private	master	+3 -0
P:toolforge::prometheus: simplify prometheus config	operations/puppet	production	+267 -321
P:toolforge::prometheus: remove paws jobs	operations/puppet	production	+5 -271
P:wmcs::paws::prometheus: add kubernetes prometheus jobs	operations/puppet	production	+204 -73
paws: add haproxy routing for prometheus	operations/puppet	production	+19 -0
paws: add paws prometheus role/profile	operations/puppet	production	+136 -0

Related Objects
Search...

Status	Assigned	Task
Open	None	T321808 Port most/all Icinga checks to Prometheus/Alertmanager
Open	None	T333638 Desired Icinga state by end of FY2023/2024
In Progress	taavi	T328502 Move WMCS off of Icinga and introduce alertmanager
Open	None	T345983 Remove Icinga checks for Cloud VPS projects (not: infrastructure)
Open	None	T313030 [toolforge.infra] Replace Toolschecker alerts with Prometheus based ones
Resolved	taavi	T284860 Prometheus alerting support on Toolforge
Resolved	taavi	T304716 Cloud services enhancement proposal: Prometheus metrics for Toolforge/Toolsbeta/Paws Kubernetes clusters

Event Timeline

taavi created this task.Mar 25 2022, 4:36 PM

Restricted Application added a subscriber: Aklapper. · View Herald TranscriptMar 25 2022, 4:36 PM

taavi updated the task description. (Show Details)Mar 25 2022, 6:14 PM

Change 774381 had a related patch set uploaded (by Majavah; author: Majavah):

[operations/puppet@production] paws: add paws prometheus role/profile

https://gerrit.wikimedia.org/r/774381

Change 774382 had a related patch set uploaded (by Majavah; author: Majavah):

[operations/puppet@production] paws: add haproxy routing for prometheus

https://gerrit.wikimedia.org/r/774382

dcaro added a project: User-dcaro.Mar 28 2022, 9:00 AM

Change 774381 merged by Vivian Rook:

[operations/puppet@production] paws: add paws prometheus role/profile

https://gerrit.wikimedia.org/r/774381

Change 774382 merged by David Caro:

[operations/puppet@production] paws: add haproxy routing for prometheus

https://gerrit.wikimedia.org/r/774382

Maintenance_bot removed a project: Patch-For-Review.Mar 29 2022, 9:10 AM

bd808 awarded a token.Apr 6 2022, 3:29 PM

We discussed this in the WMCS team meeting today, and pretty much agreed with this idea.

Change 778622 had a related patch set uploaded (by Majavah; author: Majavah):

[operations/puppet@production] P:wmcs::paws::prometheus: add kubernetes prometheus jobs

https://gerrit.wikimedia.org/r/778622

gerritbot added a project: Patch-For-Review.Apr 9 2022, 4:01 PM

Change 778673 had a related patch set uploaded (by Majavah; author: Majavah):

[operations/puppet@production] P:toolforge::prometheus: remove paws jobs

https://gerrit.wikimedia.org/r/778673

Change 778622 merged by Vivian Rook:

[operations/puppet@production] P:wmcs::paws::prometheus: add kubernetes prometheus jobs

https://gerrit.wikimedia.org/r/778622

Change 778673 merged by Vivian Rook:

[operations/puppet@production] P:toolforge::prometheus: remove paws jobs

https://gerrit.wikimedia.org/r/778673

Change 779474 had a related patch set uploaded (by Majavah; author: Majavah):

[operations/puppet@production] P:toolforge::prometheus: simplify prometheus config

https://gerrit.wikimedia.org/r/779474

taavi added a parent task: T284860: Prometheus alerting support on Toolforge.Apr 16 2022, 6:50 PM

Change 779474 merged by David Caro:

[operations/puppet@production] P:toolforge::prometheus: simplify prometheus config

https://gerrit.wikimedia.org/r/779474

Change 788303 had a related patch set uploaded (by Majavah; author: Majavah):

[labs/private@master] ssl: Add dummy key for toolsbeta k8s prometheus

https://gerrit.wikimedia.org/r/788303

Change 788305 had a related patch set uploaded (by Majavah; author: Majavah):

[operations/puppet@production] P:toolforge::prometheus: add toolsbeta support

https://gerrit.wikimedia.org/r/788305

Change 788303 merged by Andrew Bogott:

[labs/private@master] ssl: Add dummy key for toolsbeta k8s prometheus

https://gerrit.wikimedia.org/r/788303

taavi mentioned this in rLPRIba10490f5f65: ssl: Add dummy key for toolsbeta k8s prometheus.May 2 2022, 1:24 PM

Change 788305 merged by David Caro:

[operations/puppet@production] P:toolforge::prometheus: add toolsbeta support

https://gerrit.wikimedia.org/r/788305

Change 795192 had a related patch set uploaded (by Majavah; author: Majavah):

[operations/puppet@production] P:metricsinfra::alertmanager: proxy access for trusted projects

https://gerrit.wikimedia.org/r/795192

Change 802104 had a related patch set uploaded (by Majavah; author: Majavah):

[operations/puppet@production] P:(toolforge|wmcs::paws)::prometheus: configure alertmanager endpoint

https://gerrit.wikimedia.org/r/802104

Change 795192 merged by David Caro:

[operations/puppet@production] P:metricsinfra::alertmanager: proxy access for trusted projects

https://gerrit.wikimedia.org/r/795192

Change 802104 merged by Filippo Giunchedi:

[operations/puppet@production] P:(toolforge|wmcs::paws)::prometheus: configure alertmanager endpoint

https://gerrit.wikimedia.org/r/802104

taavi moved this task from Inbox to Implementation on the Cloud Services Proposals board.Feb 20 2023, 4:12 PM

taavi claimed this task.Feb 20 2023, 4:23 PM

Maintenance_bot removed a project: Patch-For-Review.Feb 20 2023, 4:30 PM

Change 890489 had a related patch set uploaded (by Majavah; author: Majavah):

[operations/puppet@production] alerts: Allow customizing the git repository info

https://gerrit.wikimedia.org/r/890489

Change 890490 had a related patch set uploaded (by Majavah; author: Majavah):

[operations/puppet@production] P:toolforge::prometheus: deploy alert rules from GitLab

https://gerrit.wikimedia.org/r/890490

Change 890489 merged by Filippo Giunchedi:

[operations/puppet@production] alerts: Allow customizing the git repository info

https://gerrit.wikimedia.org/r/890489

taavi closed this task as Resolved.Feb 28 2023, 10:59 AM

Change 890490 merged by David Caro:

[operations/puppet@production] P:toolforge::prometheus: deploy alert rules from GitLab

https://gerrit.wikimedia.org/r/890490

Maintenance_bot removed a project: Patch-For-Review.Feb 28 2023, 11:10 AM

taavi removed a subtask: T358519: paws prometheus no longer 'trusted' in metricsinfra::alertmanager.Feb 26 2024, 7:24 PM

Cloud services enhancement proposal: Prometheus metrics for Toolforge/Toolsbeta/Paws Kubernetes clustersClosed, ResolvedPublicActions

Description

Details

Related ObjectsSearch...

Event Timeline

Cloud services enhancement proposal: Prometheus metrics for Toolforge/Toolsbeta/Paws Kubernetes clusters
Closed, ResolvedPublic
Actions

Related Objects
Search...