Page MenuHomePhabricator

Imagehash-kuvahaku
Open, Needs TriagePublic

Description

Uusia kuvia tallentaessa pitää tunnistaa onko kuva tallennettua Wikimedia Commonsiin. Tätä varten lasketaan ja tallennetaan olemassaolevien Commons-kuvien phash ja dhash arvot imagehash-kirjastolla tietokantaan. Helsinki rephotographyä varten tehtiin indeksointia, niin käytetään tätä pohjana.

Commonsissa kuvia on noin 93M ja indeksointinopeus tällä hetkellä on 200k-300k / päivä niillä kuvilla jotka tulee cachesta ja vain 20-40k / päivä jos kuvaa ei löydy cachesta, niin aloitetaan indeksointi Finna-kuvien kannalta todennäköisimmistä kuvista.

GitHub: https://github.com/Wikimedia-Suomi/ImageHash-Toolforge

  • Toolforge-projekti: Imagehash
  • Kopioi Helsinki rephotography -koodit pohjaksi
  • Kopioi Helsinki rephotographyn 3M kuvan indeksi vuodelta 2021 pohjaksi
  • Github projekti ja sinne ohjeet miten Toolforge-projektia käytetään
  • Refaktoroi koodi siten, että se käyttää pelkästään suoria tietokantakutsuja API-kutsujen sijaan
  • Indeksointi 1024px koolla pyörimään 24/7 Toolforgessa
  • Esimerkkikoodi Pythonilla sille kuinka hakuja tehdään jos on pääsy Toolforgen Tools-tietokantaan
  • API-kuvien hakemiselle http-kutsuilla
  • Nopeusvertailu analytics vs Toolforge Kubernetes
  • MVP web GUI
  • Recent changes indexing status monitor/slack alerts if it is broken

Event Timeline

Zache updated the task description. (Show Details)

Parametrit

dhash+phash -haku (molemmat tarvitaan)

Page_id haku. Kuten edellinen, mutta vertailtavat hashit valitaan suoran phash+dhash:n sijaan kuvan id:llä. Toimii ainoastaan kuvilla jotka ovat valmiiksi indeksoituna. Annettu kuva on mukana tuloslistassa.

Page title haku. Kuten edellinen, mutta hakee ensin kuvan nimen perusteella kuvan id:n jolla tekee page_id -haun.

Finna id:llä (toimintaperiaate, hakee Finna id:llä Finnasta recordin, siitä linkin thumbnailiin, laskee thumbnailista dhash/phash arvot ja tekee niillä phash+dhash haun.

Zache updated the task description. (Show Details)

Github project created https://github.com/Wikimedia-Suomi/ImageHash-Toolforge

Next todo tasks:

  • MVP web UI,
  • recent changes indexing status alerts so we know if it is stuck/crashed/dead. It would be nice to see some stats also