When parsing the pageview dumps, specifically https://dumps.wikimedia.org/other/pageviews/2015/2015-08/pageviews-20150821-210000.gz I'm seeing sections violating the expected 4 column format.
As an example
en &<script>document.vulnerable=true;</script> 1 0 en &{document.vulnerable=true;}; 1 0 en <!--_--_--><script>document.vulnerable=true;</script><!--_--_--> 1 0 en <![CDATA[<!--]]<script>document.vulnerable=true;//--></script> 1 0 en <<script>document.vulnerable=true;</script> 1 0 en <?_echo('<SCR)';echo('IPT>document.vulnerable=true</SCRIPT>');_?> 1 0 en <HEAD><META_HTTP-EQUIV="CONTENT-TYPE"_CONTENT="text/html;_charset=UTF-7">_</HEAD>+ADw-SCRIPT+AD4-document.vulnerable=true;+ADw-/SCRIPT+AD4- 1 0 en <HTML><BODY><?xml:namespace_prefix="t"_ns="urn:schemas-microsoft-com:time"><?import_namespace="t"_implementation="#default#time2"><t:set_attributeName="innerHTML"_to="XSS<SCRIPT_DEFER>document.vulnerable=true</SCRIPT>"></BODY></HTML> 1 0 en <OBJECT_classid=clsid:ae24fdae-03c6-11d1-8b76-0080c744f389><param_name=url_value=javascript:document.vulnerable=true></OBJECT> 1 0 en <XML_ID="xss"><I><B><IMG_SRC="javas<!--_-->cript:document.vulnerable=true"></B></I></XML><SPAN_DATASRC="#xss"_DATAFLD="B"_DATAFORMATAS="HTML"></SPAN> 1 0 en <XML_ID=I><X><C><![CDATA[<IMG_SRC="javas]]<![CDATA[cript:document.vulnerable=true;">]]</C></X></xml><SPAN_DATASRC=#I_DATAFLD=C_DATAFORMATAS=HTML></SPAN> 1 0 en <a_href="about:<script>document.vulnerable=true;</script>"> 1 0 en <a_href="javascript#document.vulnerable=true;"> 1 0 en <bgsound_src="javascript:document.vulnerable=true;"> 1 0 en <body_onload="document.vulnerable=true;"> 1 0 en <div_datafld="b"_dataformatas="html"_datasrc="#X"></div> 1 0 en <div_onmouseover="document.vulnerable=true;"> 1 0 en <div_style="background-image:_url(javascript:document.vulnerable=true;);"> 1 0 en <div_style="behaviour:_url([link_to_code]);"> 1 0 en <div_style="binding:_url([link_to_code]);"> 1 0 en <div_style="width:_expression(document.vulnerable=true;);"> 1 0 en <img_dynsrc="javascript:document.vulnerable=true;"> 1 0 en <img_src="blah"onmouseover="document.vulnerable=true;"> 1 0 en <img_src="blah>"_onmouseover="document.vulnerable=true;"> 1 0 en <img_src="javascript:document.vulnerable=true;"> 1 0 en <img_src="livescript:document.vulnerable=true;"> 1 0 en <img_src="mocha:document.vulnerable=true;"> 1 0 en <img_src=&{document.vulnerable=true;};> 1 0 en <input_type="image"_dynsrc="javascript:document.vulnerable=true;"> 1 0 en <link_rel="stylesheet"_href="javascript:document.vulnerable=true;"> 1 0 en <object_classid="clsid:..."_codebase="javascript:document.vulnerable=true;"> 1 0 en <style><!--</style><script>document.vulnerable=true;//--></script> 1 0 en <style_type="text/javascript">document.vulnerable=true;</style> 1 0 en <xml_id="X"><a><b><script>document.vulnerable=true;</script>;</b></a></xml> 1 0 en <xml_src="javascript:document.vulnerable=true;"> 1 0 en [\xC0][\xBC]script>document.vulnerable=true;[\xC0][\xBC]/script> 1 0