When parsing the pageview dumps, specifically https://dumps.wikimedia.org/other/pageviews/2015/2015-08/pageviews-20150821-210000.gz I'm seeing sections violating the expected 4 column format.
As an example
en
&<script>document.vulnerable=true;</script>
1 0
en
&{document.vulnerable=true;};
1 0
en
<!--_--_--><script>document.vulnerable=true;</script><!--_--_-->
1 0
en
<![CDATA[<!--]]<script>document.vulnerable=true;//--></script>
1 0
en
<<script>document.vulnerable=true;</script>
1 0
en
<?_echo('<SCR)';echo('IPT>document.vulnerable=true</SCRIPT>');_?>
1 0
en
<HEAD><META_HTTP-EQUIV="CONTENT-TYPE"_CONTENT="text/html;_charset=UTF-7">_</HEAD>+ADw-SCRIPT+AD4-document.vulnerable=true;+ADw-/SCRIPT+AD4-
1 0
en
<HTML><BODY><?xml:namespace_prefix="t"_ns="urn:schemas-microsoft-com:time"><?import_namespace="t"_implementation="#default#time2"><t:set_attributeName="innerHTML"_to="XSS<SCRIPT_DEFER>document.vulnerable=true</SCRIPT>"></BODY></HTML>
1 0
en
<OBJECT_classid=clsid:ae24fdae-03c6-11d1-8b76-0080c744f389><param_name=url_value=javascript:document.vulnerable=true></OBJECT>
1 0
en
<XML_ID="xss"><I><B><IMG_SRC="javas<!--_-->cript:document.vulnerable=true"></B></I></XML><SPAN_DATASRC="#xss"_DATAFLD="B"_DATAFORMATAS="HTML"></SPAN>
1 0
en
<XML_ID=I><X><C><![CDATA[<IMG_SRC="javas]]<![CDATA[cript:document.vulnerable=true;">]]</C></X></xml><SPAN_DATASRC=#I_DATAFLD=C_DATAFORMATAS=HTML></SPAN>
1 0
en
<a_href="about:<script>document.vulnerable=true;</script>">
1 0
en
<a_href="javascript#document.vulnerable=true;">
1 0
en
<bgsound_src="javascript:document.vulnerable=true;">
1 0
en
<body_onload="document.vulnerable=true;">
1 0
en
<div_datafld="b"_dataformatas="html"_datasrc="#X"></div>
1 0
en
<div_onmouseover="document.vulnerable=true;">
1 0
en
<div_style="background-image:_url(javascript:document.vulnerable=true;);">
1 0
en
<div_style="behaviour:_url([link_to_code]);">
1 0
en
<div_style="binding:_url([link_to_code]);">
1 0
en
<div_style="width:_expression(document.vulnerable=true;);">
1 0
en
<img_dynsrc="javascript:document.vulnerable=true;">
1 0
en
<img_src="blah"onmouseover="document.vulnerable=true;">
1 0
en
<img_src="blah>"_onmouseover="document.vulnerable=true;">
1 0
en
<img_src="javascript:document.vulnerable=true;">
1 0
en
<img_src="livescript:document.vulnerable=true;">
1 0
en
<img_src="mocha:document.vulnerable=true;">
1 0
en
<img_src=&{document.vulnerable=true;};>
1 0
en
<input_type="image"_dynsrc="javascript:document.vulnerable=true;">
1 0
en
<link_rel="stylesheet"_href="javascript:document.vulnerable=true;">
1 0
en
<object_classid="clsid:..."_codebase="javascript:document.vulnerable=true;">
1 0
en
<style><!--</style><script>document.vulnerable=true;//--></script>
1 0
en
<style_type="text/javascript">document.vulnerable=true;</style>
1 0
en
<xml_id="X"><a><b><script>document.vulnerable=true;</script>;</b></a></xml>
1 0
en
<xml_src="javascript:document.vulnerable=true;">
1 0
en
[\xC0][\xBC]script>document.vulnerable=true;[\xC0][\xBC]/script>
1 0