openstack: consider removing references to old hardware from the database
Closed, ResolvedPublic
Actions

Assigned To

Authored By

	aborrero
	May 4 2023, 3:58 PM

Description

We still have references to old (already decommissioned) hardware somewhere in the database, as the prometheus-openstack-exporter reports data for them.

Example:

aborrero@cloudcontrol1007:~$ curl localhost:12345/metrics -o metrics.prom
aborrero@cloudcontrol1007:~$ grep cloudvirt1001 metrics.prom
openstack_placement_resource_allocation_ratio{hostname="cloudvirt1001.eqiad.wmnet",resourcetype="DISK_GB"} 1.5
openstack_placement_resource_allocation_ratio{hostname="cloudvirt1001.eqiad.wmnet",resourcetype="MEMORY_MB"} 1
openstack_placement_resource_allocation_ratio{hostname="cloudvirt1001.eqiad.wmnet",resourcetype="VCPU"} 4
openstack_placement_resource_reserved{hostname="cloudvirt1001.eqiad.wmnet",resourcetype="DISK_GB"} 0
openstack_placement_resource_reserved{hostname="cloudvirt1001.eqiad.wmnet",resourcetype="MEMORY_MB"} 512
openstack_placement_resource_reserved{hostname="cloudvirt1001.eqiad.wmnet",resourcetype="VCPU"} 0
openstack_placement_resource_total{hostname="cloudvirt1001.eqiad.wmnet",resourcetype="DISK_GB"} 2015
openstack_placement_resource_total{hostname="cloudvirt1001.eqiad.wmnet",resourcetype="MEMORY_MB"} 386952
openstack_placement_resource_total{hostname="cloudvirt1001.eqiad.wmnet",resourcetype="VCPU"} 48
openstack_placement_resource_usage{hostname="cloudvirt1001.eqiad.wmnet",resourcetype="DISK_GB"} 52
openstack_placement_resource_usage{hostname="cloudvirt1001.eqiad.wmnet",resourcetype="MEMORY_MB"} 2048
openstack_placement_resource_usage{hostname="cloudvirt1001.eqiad.wmnet",resourcetype="VCPU"} 4

This is likely somewhere in the placement database, but I couldn't find where:

aborrero@cloudcontrol1007:~$ sudo mysql -u root
MariaDB [(none)]> show databases;
+--------------------+
| Database           |
+--------------------+
| cinder             |
| designate          |
| eqiad1_ceph_backy  |
| eqiad1_heat        |
| eqiad1_magnum      |
| glance             |
| information_schema |
| keystone           |
| mysql              |
| neutron            |
| nova_api_eqiad1    |
| nova_cell0_eqiad1  |
| nova_eqiad1        |
| performance_schema |
| placement          |
| trove_eqiad1       |
+--------------------+
16 rows in set (0.001 sec)

MariaDB [(none)]> use placement;
Reading table information for completion of table and column names
You can turn off this feature to get a quicker startup with -A

Database changed
MariaDB [placement]> show tables;
+------------------------------+
| Tables_in_placement          |
+------------------------------+
| alembic_version              |
| allocations                  |
| consumer_types               |
| consumers                    |
| inventories                  |
| placement_aggregates         |
| projects                     |
| resource_classes             |
| resource_provider_aggregates |
| resource_provider_traits     |
| resource_providers           |
| traits                       |
| users                        |
+------------------------------+
13 rows in set (0.000 sec)

However, at least some parts of openstack knows that these hosts don't exists:

aborrero@cloudcontrol1007:~$ sudo wmcs-openstack hypervisor list | grep cloudvirt1001
[.. nothing ..]

The impact is just cosmetic. We get some panels with empty data in grafana which is a bit annoying but also harmless.

Related Objects
Search...

Status	Assigned	Task
		Restricted Task
Resolved	Andrew	T305828 upgrade cloud-vps openstack to Openstack version 'Yoga'
Resolved	Andrew	T296561 upgrade cloud-vps openstack to Openstack version 'Xena'
Resolved	rook	T281275 upgrade cloud-vps openstack to Openstack version 'Wallaby'
Resolved	Andrew	T281276 Upgrade cloud-vps openstack hosts to Debian 'Bullseye'
Resolved	aborrero	T302050 prometheus-openstack-exporter in Bullseye
Resolved	dcaro	T302178 prometheus-openstack-exporter No module named 'urlparse'
Resolved	aborrero	T333975 Cloud VPS: refresh openstack resources grafana dashboard
Resolved	Andrew	T335943 prometheus-openstack-exporter: collected data shows regular null intervals
Resolved	Andrew	T335978 openstack: consider removing references to old hardware from the database
Resolved	Andrew	T362443 Learn how to do what Taavi does
Resolved	taavi	T362444 Taavi knowledge transfer: maintain-kubeusers
Resolved	taavi	T362445 Taavi knowledge transfer: Toolforge k8s upgrades
Resolved	taavi	T362446 Taavi knowledge transfer: toolforge job investigation
Resolved	taavi	T362447 Taavi knowledge transfer: Toolforge misc services (e.g. mail server)
Resolved	taavi	T362448 Taavi knowledge transfer: rebuild toolforge docker images
Resolved	Andrew	T362449 Taavi knowledge transfer: python-flask-keystone, novaproxy, enc api
Resolved	taavi	T362450 Taavi knowledge transfer: Cloud VPS OpenTofu provider
Resolved	Andrew	T362452 Taavi knowledge transfer: cloud-vps monitoring

Event Timeline

aborrero triaged this task as Low priority.May 4 2023, 3:58 PM

aborrero created this task.

aborrero updated the task description. (Show Details)May 4 2023, 4:01 PM

aborrero mentioned this in T340611: prometheus: figure out how to clean metrics for decommissioned hardware.Jun 29 2023, 9:49 AM

aborrero merged a task: T340611: prometheus: figure out how to clean metrics for decommissioned hardware.

Following up from T340611, my next best guess is that the openstack exporter performs some caching? That seems likely if the OS API returns correct data (i.e. no old hosts)

In T335978#8975511, @fgiunchedi wrote:

Following up from T340611, my next best guess is that the openstack exporter performs some caching? That seems likely if the OS API returns correct data (i.e. no old hosts)

I couldn't find such cache. I suspect of the DB because I'm not aware of any procedure we do to cleanup it when we decommission hardware.

In T335978#8975562, @aborrero wrote:

In T335978#8975511, @fgiunchedi wrote:

Following up from T340611, my next best guess is that the openstack exporter performs some caching? That seems likely if the OS API returns correct data (i.e. no old hosts)

I couldn't find such cache. I suspect of the DB because I'm not aware of any procedure we do to cleanup it when we decommission hardware.

Yeah that must be it then; I'm definitely out of my depth here obviously, but happy to help with the Prometheus side of things if needed

fnegri moved this task from FY2022/2023-Q4 to FY2023/2024-Q1-Q2 on the cloud-services-team board.Jul 27 2023, 4:14 PM

fnegri edited projects, added cloud-services-team (FY2023/2024-Q1-Q2); removed cloud-services-team (FY2022/2023-Q4).

fnegri edited projects, added cloud-services-team (FY2023/2024-Q3-Q4); removed cloud-services-team (FY2023/2024-Q1-Q2).Feb 1 2024, 11:14 AM

Removing hardware records from the DB seems a little bit dangerous as that could leave dangling references elsewhere (for instance in the action log which keeps track of any previous actions a VM took, including a reference to where the VM was at the time.)

This seems like a bug in the exporter, it should really be able to tell the difference between nodes the exist and nodes that don't. I'm going to look in the code a bit to see what it's doing.

Ok, I think I found them! These deleted hosts can be cleaned up with

openstack resource provider list
openstack resource provider show --allocations
openstack resource provider allocation delete
openstack resource provider delete

I think this is now cleaned up and resolved for now. In the future, I suspect that deleting canary VMs before deleting hypervisors will prevent them from showing up here, but openstack resource provider delete might be needed.

fnegri moved this task from Backlog to Done on the cloud-services-team (FY2023/2024-Q3-Q4) board.Jun 10 2024, 2:27 PM

taavi closed subtask T362443: Learn how to do what Taavi does as Resolved.Jun 28 2024, 9:15 AM

openstack: consider removing references to old hardware from the databaseClosed, ResolvedPublicActions

Description

Related ObjectsSearch...

Event Timeline

openstack: consider removing references to old hardware from the database
Closed, ResolvedPublic
Actions

Related Objects
Search...