Page MenuHomePhabricator

Museoviraston musketti-järjestelmän kuvien tallennus korkeammalle resoluutiolle
Closed, ResolvedPublic

Description

Tallenna T337672 :n tavoin ne Museoviraston musketti-järjestelmän kuvat Finnasta Commonsiin jotka löytyvät suuremmalla resoluutiolla Finnasta kuin mitä ne löytyvät Commonsista.

Tiedostolista Commonsissa

SQL-kysely jolla tiedostolista on luotu

Pywikikoodi joka iteroi listan läpi

import pywikibot

site = pywikibot.Site('commons', 'commons')  # The site we're working on
page = pywikibot.Page(site, 'user:FinnaUploadBot/filelist')  # The page you're interested in

# Get all linked pages from the page
for linked_page in page.linkedPages():
    print(linked_page.title())

Huomioitavaa

  • Yhdessä Finnan recordissa voi olla useita kuvia joista pitää valita oikea. Esimerkki: musketti.M012:H30058: ( json )
  • Phash-varmistus toimii huonosti kolikkokuvien kanssa. Dhash:n toimivuus on tuntematon. Varmistettava Antellin kokoelman kolikkokuvien osalta tunnistuksen toimivuus erikseen.
  • Finnassa ei välttämättä vieläkään ole paremmalla resoluutiolla kuvaa kuin Commonsissa, joten ennen tallennusta on tarkistettava onko Finnan kuva paremmalla resoluutiolla kuin Commons-kuva

TODO

Event Timeline

Zache renamed this task from Tallenna low-res Finna-kuvat korkeammalle resoluutiolle to Museoviraston musketti-järjestelmän kuvien tallennus korkeammalle resoluutiolle.May 31 2023, 3:26 PM
Zache updated the task description. (Show Details)
Zache updated the task description. (Show Details)

Kommentiksi talteen SQL-kysely jolla tiedostolista on haettu

SELECT 
  CONCAT("* [[:file:", img_name, "]]") as wikilink
FROM
  image,
  page,
  externallinks
WHERE
  img_name=page_title
  AND page_namespace=6
  AND page_id=el_from
  AND (el_index_60 LIKE "https://fi.finna%/%" OR el_index_60 LIKE "http://fi.finna%/%" )
  AND el_to LIKE "%musketti%"
  AND img_height<2000
  AND img_width<2000
  AND img_minor_mime="jpeg"  
GROUP BY img_name
Zache updated the task description. (Show Details)
Zache updated the task description. (Show Details)

"tallenna Antellin kokoelma erikseen" - phash/dhash-tunnistus ei toimi koska kuvat niin samankaltaisia keskenään

Voi olla, että se tunnistus toimisi muuten ihan sillä, että nostaa phash/dhash:n pituus 64 bitistä 256 bittiin jolloin yksityiskohdat näkyy hashissa paremmin. En kuitenkaan ole kokeillut tätä.

Ipr1 changed the task status from Open to In Progress.Jul 18 2023, 7:21 PM

muistiin, että kuvaa hakiessa Finnasta pitää olla "&index=<numero>" jotta saa etu/takapuolen kolikon kuvasta (sama tunnus, indeksi 0 tai 1 etu/taka)

Vanhentuneita id:tä: esim. hkm.HKMS000005%3Akm0000nuzf on nykyään hkm.704B5DAC-E8A5-451F-ABB5-B519A3077291 ja Finnan API palauttaa virheen jos käyttää vanhaa.

Metasivun redirect toimii eli pitää parsia uusi ID kuvalle ennenkuin voi hakea Finnan rajapinnasta tietoja.

ainakin kuva File:Dubrovnik Lounge & Lobby.jpg aiheuttaa virheen jos sitä koittaa päivittää, jostain syystä palauttaa 403 virheen mutta en näe selkeää syytä. ehkä ampersandi nimessä sekoittaa jotain tai jossakin on suojausflagi asetettuna?

Ne kuvat jotka pystyy imagehashillä varmistamaan ja joista on Finnassa korkeammalla resoluutiolla oleva kuva on nyt päivitetty korkeammalle resoluutiolle.

Tai no Antellin kokoelman kuvat ei ole päivitettynä näemmä

Antellin kuvista jäljellä seuraavat. Vuoden 2018 kuvien kohdalla imagehash ei onnistu tunnistamaan kuvia (uusi skannaus ehkä?), vuoden 2023 kuvissa joku muokkaaja on cropannut kuvia. Merkkaan kuitenkin Antellin kuvat tehdyksi tämän ja noita loppuja Antellin kolikkokuvia voi miettiä silloin kun testaa jotain toista duplikaattitarkistusta.

+-----------------------------------------------------------------------+----------------+
| page_title                                                            | img_timestamp  |
+-----------------------------------------------------------------------+----------------+
| Gold_coin_of_Gustav_II_Adolph_of_Sweden_(front).jpg                   | 20230617214237 |
| Raha;_5_markkaa;_klippinki_-_ANT3-344_(musketti.M012-ANT3-344_1).jpg  | 20181006163737 |
| Raha;_5_markkaa;_klippinki_-_ANT3-344_(musketti.M012-ANT3-344_2).jpg  | 20181006171856 |
| Raha;_8_markkaa_-_ANT3-364_(musketti.M012-ANT3-364_1).jpg             | 20181006163530 |
| Raha;_8_markkaa_-_ANT3-364_(musketti.M012-ANT3-364_2).jpg             | 20181006171646 |
| Raha;_markka_-_ANT2-324_(musketti.M012-ANT2-324_1).jpg                | 20230617212729 |
| Raha;_markka_-_ANT2-534_(musketti.M012-ANT2-534_1).jpg                | 20230617212309 |
| Raha;_markka_-_ANT8-28_(musketti.M012-ANT8-28_2).jpg                  | 20181006170401 |
| Raha;_markka;_2_markkaa_-_ANT85AV-11_(musketti.M012-ANT85AV-11_1).jpg | 20181006162850 |
| Raha;_markka;_Sture-markka_-_ANT1-559_(musketti.M012-ANT1-559_1).jpg  | 20181006141335 |
| Raha;_markka;_Sture-markka_-_ANT1-559_(musketti.M012-ANT1-559_2).jpg  | 20181006170048 |
+-----------------------------------------------------------------------+----------------+

Kaikissa tai ainakin suurimmassa osassa kuvista jotka pystyy tunnistamaan Phash/Dhash tai open_clip:llä on finna_id lisättynä.

Zache changed the task status from In Progress to Stalled.Oct 9 2023, 7:01 AM
Zache triaged this task as Low priority.

Tehdään tämä Django-projektiin (T348423), niin pistin blockediksi siksi aikaa että saadaan se alkuun, koska jos tehdään kunnollinen tietokanta siitä mitä Commonsissa ja Finnassa on, niin se yksinkertaistaa niiden jäljellä olevien kuvien löytämistä joiden tietoja ei ole vielä tallennettu.

Jos on kuvia joita ei ole vielä löydetty ja päivitetty niin syy on joko Finnaan merkitty lisenssi, ei ole suurempaa kuvaa tai kuvan lähdettä ei ole merkitty oikein. Viimeisessä tapauksessa haettava joka tapauksessa hashien perusteella kuten muutoinkin tarvitaan.