Uusia kuvia tallentaessa pitää tunnistaa onko kuva tallennettua Wikimedia Commonsiin. Tätä varten lasketaan ja tallennetaan olemassaolevien Commons-kuvien phash ja dhash arvot [[ https://pypi.org/project/ImageHash/ | imagehash ]]-kirjastolla tietokantaan. Helsinki rephotographyä varten tehtiin indeksointia, niin käytetään tätä pohjana.
Commonsissa kuvia on noin 93M ja indeksointinopeus tällä hetkellä on 200k-300k / päivä niillä kuvilla jotka tulee cachesta ja vain 20-40k / päivä jos kuvaa ei löydy cachesta, niin aloitetaan indeksointi Finna-kuvien kannalta todennäköisimmistä kuvista.
[X] Toolforge-projekti: [[https://toolsadmin.wikimedia.org/tools/id/imagehash | Imagehash ]]
[X] Kopioi Helsinki rephotography -koodit pohjaksi
[X] Kopioi Helsinki rephotographyn 3M kuvan indeksi vuodelta 2021 pohjaksi
[ ] Ohjeet miten Toolforge-projektia käytetään
[ ] Versionhallinta githubiin
[X] Refaktoroi koodi siten, että se käyttää pelkästään suoria tietokantakutsuja API-kutsujen sijaan
[X] Indeksointi 1024px koolla pyörimään 24/7 Toolforgessa
[ ] Esimerkkikoodi Pythonilla sille kuinka hakuja tehdään jos on pääsy Toolforgen Tools-tietokantaan
[X] API-kuvien hakemiselle http-kutsuilla
[ ] Nopeusvertailu analytics vs Toolforge jsub vs Toolforge Kubernetes