Zu den großartigen features der deutschen Wikipedia gehört, dass alle Seiten wohlgeformten Code haben und dadurch gut und leicht auch mit XML-Technologien weiter ausgewertet und verarbeitet werden können. Dieses Prinzip scheint neuerdings durch die Einbindung eines geänderten Links zur Abrufstatistik zerstört zu werden. Der Seitenquellcode enthält jetzt
<a class="external" href="https://tools.wmflabs.org/pageviews#pages=Kategorie:Staat_als_Thema&project=de.wikipedia.org" rel="nofollow">Abrufstatistik</a>
womit die Seiten nicht mehr wohlgeformt und nicht mehr parsebar sind. Wenn statt "&project" einfach "&project" oder "%26project" da stehen würde, wäre wieder alles gut.
Wir (z.B. an der Universität zu Köln) benutzen sehr oft XML-Technologien zur Analyse von wikipedia-Inhalten, sowohl in der Forschung als auch in der Lehre (gerade verzweifeln Studierende daran, dass die wikipedia nicht mehr wohlgeformt ist). Es wäre ein sehr trauriger Rückschritt, wenn die Wohlgeformtheit der Seiten einfach so aufgegeben würde.
Siehe dazu zuletzt z.B.: Sahle/Henny, Klios Algorithmen: automatisierte Auswertung von Wikipedia-Inhalten als Faktenbasis und Diskursraum. In: Wikipedia und Geschichtswissenschaft. Hg. von Thomas Wozniak, Uwe Rohwedder und Jürgen Nemitz. München: De Gruyter Oldenburg, 2015, S. 113-148.
Viele Grüße, Patrick Sahle