Task to track the efforts/progress made on converting CirrusSearch metrics from graphite to prometheus using statslib.
The work to do is:
- change the code in CirrusSearch to use statslib (example)
- adapt existing alerts and migrate from icinga to alertmanager
- adapt existing (or create new) elasticsearch dashboards (https://grafana-rw.wikimedia.org/dashboards/f/ojtEMrcVk/search)
The work does not have to be done all at once but working on metrics used by icinga should be prioritized according to T350597.
AC:
- CirrusSearch no longer writes to (nor its operations depend on) graphite/icinga
Metrics initially identified:
- MediaWiki.CirrusSearch.$cirrus_group.backend_failure.*
- MediaWiki.CirrusSearch.$cirrus_group.backend_failure.*.rate
- MediaWiki.CirrusSearch.$cirrus_group.requestTimeMs.comp_suggest.p50
- MediaWiki.CirrusSearch.$cirrus_group.requestTimeMs.comp_suggest.p75
- MediaWiki.CirrusSearch.$cirrus_group.requestTimeMs.comp_suggest.p95
- MediaWiki.CirrusSearch.$cirrus_group.requestTimeMs.comp_suggest.p99
- MediaWiki.CirrusSearch.$cirrus_group.requestTimeMs.comp_suggest.sample_rate
- MediaWiki.CirrusSearch.$cirrus_group.requestTimeMs.full_text.p50
- MediaWiki.CirrusSearch.$cirrus_group.requestTimeMs.full_text.p75
- MediaWiki.CirrusSearch.$cirrus_group.requestTimeMs.full_text.p95
- MediaWiki.CirrusSearch.$cirrus_group.requestTimeMs.full_text.p99
- MediaWiki.CirrusSearch.$cirrus_group.requestTimeMs.full_text.sample_rate
- MediaWiki.CirrusSearch.$cirrus_group.requestTimeMs.more_like.p50
- MediaWiki.CirrusSearch.$cirrus_group.requestTimeMs.more_like.p75
- MediaWiki.CirrusSearch.$cirrus_group.requestTimeMs.more_like.p95
- MediaWiki.CirrusSearch.$cirrus_group.requestTimeMs.more_like.sample_rate
- MediaWiki.CirrusSearch.$cirrus_group.requestTimeMs.*.p50
- MediaWiki.CirrusSearch.$cirrus_group.requestTimeMs.prefix.p50
- MediaWiki.CirrusSearch.$cirrus_group.requestTimeMs.prefix.p75
- MediaWiki.CirrusSearch.$cirrus_group.requestTimeMs.prefix.p95
- MediaWiki.CirrusSearch.$cirrus_group.requestTimeMs.prefix.p99
- MediaWiki.CirrusSearch.$cirrus_group.requestTimeMs.prefix.sample_rate
- MediaWiki.CirrusSearch.$cirrus_group.requestTimeMs.*.sample_rate
- MediaWiki.CirrusSearch.$cirrus_group.requestTimeMs.*.sum
- MediaWiki.CirrusSearch.$cirrus_group.requestTime.p50
- MediaWiki.CirrusSearch.$cirrus_group.requestTime.p75
- MediaWiki.CirrusSearch.$cirrus_group.requestTime.p95
- MediaWiki.CirrusSearch.$cirrus_group.requestTime.p99
- MediaWiki.CirrusSearch.$cluster.backend_failure.failed.count
- MediaWiki.CirrusSearch.$cluster.backend_failure.rejected.count
- MediaWiki.CirrusSearch.$cluster.backend_failure.unknown.count
- MediaWiki.CirrusSearch.$cluster.requestTimeMs.comp_suggest.p50
- MediaWiki.CirrusSearch.$cluster.requestTimeMs.comp_suggest.p75
- MediaWiki.CirrusSearch.$cluster.requestTimeMs.comp_suggest.p95
- MediaWiki.CirrusSearch.$cluster.requestTimeMs.comp_suggest.p99
- MediaWiki.CirrusSearch.$cluster.requestTimeMs.comp_suggest.sample_rate
- MediaWiki.CirrusSearch.$cluster.requestTimeMs.full_text.p50
- MediaWiki.CirrusSearch.$cluster.requestTimeMs.full_text.p75
- MediaWiki.CirrusSearch.$cluster.requestTimeMs.full_text.p95
- MediaWiki.CirrusSearch.$cluster.requestTimeMs.full_text.p99
- MediaWiki.CirrusSearch.$cluster.requestTimeMs.full_text.sample_rate
- MediaWiki.CirrusSearch.$cluster.requestTimeMs.more_like.p50
- MediaWiki.CirrusSearch.$cluster.requestTimeMs.more_like.p75
- MediaWiki.CirrusSearch.$cluster.requestTimeMs.more_like.p95
- MediaWiki.CirrusSearch.$cluster.requestTimeMs.more_like.sample_rate
- MediaWiki.CirrusSearch.$cluster.requestTimeMs.*.p50
- MediaWiki.CirrusSearch.$cluster.requestTimeMs.prefix.p50
- MediaWiki.CirrusSearch.$cluster.requestTimeMs.prefix.p75
- MediaWiki.CirrusSearch.$cluster.requestTimeMs.prefix.p95
- MediaWiki.CirrusSearch.$cluster.requestTimeMs.prefix.p99
- MediaWiki.CirrusSearch.$cluster.requestTimeMs.prefix.sample_rate
- MediaWiki.CirrusSearch.$cluster.requestTimeMs.*.sample_rate
- MediaWiki.CirrusSearch.$cluster.requestTimeMs.*.sum
- MediaWiki.CirrusSearch.$cluster.requestTime.p50
- MediaWiki.CirrusSearch.$cluster.requestTime.p75
- MediaWiki.CirrusSearch.$cluster.requestTime.p95
- MediaWiki.CirrusSearch.$cluster.requestTime.p99
- MediaWiki.CirrusSearch.$cluster.updates.all.lag.$change_type.mean
- MediaWiki.CirrusSearch.cloudelastic.updates.all.*.rate
- MediaWiki.CirrusSearch.codfw.requestTime.p95
- MediaWiki.CirrusSearch.codfw.updates.all.*.rate
- MediaWiki.CirrusSearch.codfw.updates.all.sent.rate
- MediaWiki.CirrusSearch.codfw.updates.details.*.*.sent.rate
- MediaWiki.CirrusSearch.eqiad.requestTime.p95
- MediaWiki.CirrusSearch.eqiad.updates.all.lag.page_change.mean
- MediaWiki.CirrusSearch.eqiad.updates.all.*.rate
- MediaWiki.CirrusSearch.poolCounter.*
- MediaWiki.CirrusSearch.poolCounter.$pool_counter.failureMs.sample_rate
- MediaWiki.CirrusSearch.poolCounter.$pool_counter.successMs.sample_rate
- MediaWiki.CirrusSearch.poolCounter.*.failureMs.sample_rate
- MediaWiki.CirrusSearch.query_cache.more_like.hit.rate
- MediaWiki.CirrusSearch.query_cache.more_like.miss.rate
- MediaWiki.CirrusSearch.results.file_duplicates.count
- MediaWiki.CirrusSearch.*.updates.all.doc_size.p95
- MediaWiki.CirrusSearch.*.updates.all.doc_size.p99
- MediaWiki.CirrusSearch.*.updates.all.doc_size.upper