Description:
For certain German TextExtracts, we are seeing parts of the “Staat” and “Fußballklub” Infoboxes included. The problem could exist on German pages with other Infobox templates as well. See examples below.
Steps to Reproduce:
- Go to: https://de.wikipedia.org/wiki/Afghanistan?action=raw
- Compare raw page from step 1 to text extract json output: https://de.wikipedia.org/w/api.php?action=query&format=json&prop=extracts%7Crevisions&iwurl=1&titles=Afghanistan&utf8=1&formatversion=2&exlimit=1&explaintext=1&rvprop=ids&redirects=1&converttitles=1
- We expect:
- The text extract should begin with “Afghanistan (paschtunisch und persisch (Dari) افغانستان Afghānestān, offiziell Islamische Republik Afghanistan) ist ein Binnenstaat Südasiens an der Schnittstelle von Süd- zu Zentralasien, der an den Iran, Turkmenistan, Usbekistan, Tadschikistan, die Volksrepublik China und Pakistan grenzt. Drei Viertel des Landes bestehen aus schwer zugänglichen Gebirgsregionen."
- Instead, we see an extract beginning with “"Vorlage:Infobox Staat/Wartung/NAME-DEUTSCH Afghanistan ist ein Binnenstaat Südasiens an der Schnittstelle von Süd- zu Zentralasien, der an den Iran, Turkmenistan, Usbekistan, Tadschikistan, die Volksrepublik China und Pakistan grenzt."
- We see this occurring on several other German pages, including: