Page MenuHomePhabricator

Metadata (coordinates) is sometimes surfaced as lead intro/summary
Closed, ResolvedPublic

Description

Example: http://0.0.0.0:6927/cs.m.wikipedia.org/v1/page/summary/Labe (the new implementation of the summary endpoint)
for revision 15389814 shows extract_html of

"extract_html": "<p><span class=\"coordinates\" id=\"geocoord\">Souřadnice:<span> </span><span><span style=\"white-space:nowrap\">50°46′32″ s. š.,</span> <span style=\"white-space:nowrap\">15°32′11″ v. d.</span></span></span></p>"

instead of the following paragraph. The CSS has a special rule for #geocoord to move it out of the visible area (top:-3.7em).

I think we should remove the element with an id of geocoord from consideration to be the intro of an article.

Event Timeline

I merged the other task in this one to keep the task graph (the other is being tracked so will not show up in the backlog)

We could blacklist #geoCoord but I'm a bit wary of this as all projects may have their own different id/class and it might be better to update the underlying template to be consistent with other projects. We already look for: '#coordinates', '.geo-nondefault', '.geo-multi-punct' so I'm a bit weary of adding yet another one - it seems like a slippery slope to technical debt ville :)

The problematic template is:
https://cs.wikipedia.org/w/index.php?title=%C5%A0ablona:Sou%C5%99adnice&action=edit
but I don't know enough about it to know if it's realistic for the community to update their templates.

Some projects use an indicator e.g. https://en.wikivoyage.org/w/index.php?title=Template:Geo&action=edit (which is great as it empowers the skin to put the indicator in whatever place it chooses) while some use #coordinates e.g. https://en.wikipedia.org/w/index.php?title=Module:Coordinates&action=edit

I'd like to hold off scrubbing this to see if this can be a motivating factor for some standardisation.

@Jdlrobson: The template Šablona:Souřadnice uses '#coordinates' (see second row of the code). Could it be that the real problem (for the page in question) is the repeated use of the template in the infobox?

The coordinates from infobox are no problem for example at the page Kutná Hora (#795 on your list). Other examples: Bali (#773), Hongkong (#747).

@Vachovec1 there is something very strange happening here yes.
Looking at the HTML the coordinates are rendering outside and after the infobox which appears to be the line at the bottom:

}{{#if: {{{zeměpisná délka1|}}}{{{zeměpisná šířka1|}}} | {{Souřadnice|{{{zeměpisná šířka1|0}}}|{{{zeměpisná délka1|0}}}|typ=landmark|zobrazení=top}} }}</includeonly>

can this be removed since it is repeated... ? I'm not sure why this should be repeated.

@Jdlrobson: good catch. I edited the template. The coordinates display is now managed inside the infobox. Try to get new Page Summaries for the pages Labe or Vltava now.

Yup! Thanks @Vachovec1 that seems to have fixed it!

http://0.0.0.0:6927/cs.wikipedia.org/v1/page/summary/Labe

"extract": "Labe je jednou z největších řek a vodních cest Evropy. Pramení v Krkonoších na severu Čech, protéká Německem a ústí estuárem do Severního moře. Je 1094 km dlouhá a její povodí má rozlohu 148 268 km² . Na svém soutoku s Vltavou má nižší průtok a je od svého pramene kratší, ale přesto se nepovažuje za její přítok. Celková délka toku Černého potoka, Teplé Vltavy, Vltavy a Labe od soutoku s Vltavou do moře činí 1329 km.",

"extract_html": "<p><b>Labe</b> je jednou z<span>&nbsp;</span>největších řek a vodních cest <span>Evropy</span>. Pramení v<span>&nbsp;</span><span>Krkonoších</span> na severu <span>Čech</span>, protéká <span>Německem</span> a ústí <span>estuárem</span> do <span>Severního moře</span>. Je 1094<span>&nbsp;</span><span>km</span> dlouhá a její povodí má rozlohu 148<span>&nbsp;</span>268<span>&nbsp;</span><span>km²</span> . Na svém soutoku s<span>&nbsp;</span><span>Vltavou</span> má nižší průtok a je od svého pramene kratší, ale přesto se nepovažuje za její přítok. Celková délka toku Černého potoka, Teplé Vltavy, Vltavy a Labe od soutoku s<span>&nbsp;</span>Vltavou do moře činí 1329<span>&nbsp;</span>km.</p>"

Vltava returns:

"extract": "Vltava je s délkou 430,2 km nejdelší řeka v České republice. Pramení na Šumavě, u obce Černý Kříž, soutokem Teplé Vltavy a Studené Vltavy. Protéká mimo jiné Českým Krumlovem, Českými Budějovicemi a Prahou a ústí zleva do Labe v Mělníku. Povodí Vltavy s přítoky Malší, Lužnicí, Otavou, Sázavou a Berounkou zaujímá jižní část Čech a spolu s Labem, jehož přítokem Vltava je, vytváří systém odvodňující téměř celé Čechy. Povodí řeky je 28 090 km² . Své jméno „Vltava“ řeka dostala od starých Germánů, kteří ji nazývali Wilt-ahwa - divoká voda.",
"extract_html": "<p><b>Vltava</b> je s délkou 430,2<span>&nbsp;</span>km nejdelší <span>řeka</span> v<span>&nbsp;</span><span>České republice</span>. <span>Pramení</span> na <span>Šumavě</span>, u obce <span>Černý Kříž</span>, soutokem Teplé Vltavy a Studené Vltavy. Protéká mimo jiné <span>Českým Krumlovem</span>, <span>Českými Budějovicemi</span> a <span>Prahou</span> a ústí zleva do <span>Labe</span> v <span>Mělníku</span>. <span>Povodí</span> Vltavy s přítoky <span>Malší</span>, <span>Lužnicí</span>, <span>Otavou</span>, <span>Sázavou</span> a <span>Berounkou</span> zaujímá jižní část <span>Čech</span> a spolu s Labem, jehož <span>přítokem</span> Vltava je, vytváří systém odvodňující téměř celé <span>Čechy</span>. Povodí řeky je 28<span>&nbsp;</span>090<span>&nbsp;</span><span>km²</span> . Své jméno „Vltava“ řeka dostala od starých <span>Germánů</span>, kteří ji nazývali <i>Wilt-ahwa</i> - <i>divoká voda</i>.</p>"
}

I uploaded a new sample of articles here:
https://jdlrobson.com/summaries/cs2.html

Jdlrobson claimed this task.