Change Details

Hi, related to [[ https://phabricator.wikimedia.org/T149358 | T149358 ]] and [[ https://github.com/MusikAnimal/pageviews/issues/185 | #185@MusikAnimal/pageviews on GitHub ]]. I have already processed all the data from [[ https://dumps.wikimedia.org/other/pagecounts-raw/ | pagecounts-raw ]] and [[ https://dumps.wikimedia.org/other/pagecounts-all-sites/| pagecounts-all-sites]] to sort them by page instead of by hour. Here's a sample of the original data (from `pagecounts-20071229-120000.gz`): ``` en Albert_Einstein 199 199 en Albert_Einstein%27s_brain 10 10 en Albert_Einstein's_brain 3 3 en Albert_Einstein_-_Wikipedia%2C_the_free_encyclopedia_files/main.css 1 1 en Albert_Einstein_-_Wikipedia%2C_the_free_encyclopedia_files/shared.css 1 1 en Albert_Einstein_College_of_Medicine 2 2 en Albert_Einstein_High_School 1 1 en Albert_Einstein_Medal 1 1 ``` Here's a sample of the data sorted by page per month: ``` en Albert_Einstein 20071209-180000 51 51 en Albert_Einstein 20071209-190000 471 471 en Albert_Einstein 20071209-200000 545 545 en Albert_Einstein 20071209-210000 546 546 en Albert_Einstein 20071209-220000 497 497 en Albert_Einstein 20071209-230000 564 564 en Albert_Einstein 20071210-000000 540 540 en Albert_Einstein 20071210-010000 567 567 en Albert_Einstein 20071210-020000 547 547 en Albert_Einstein 20071210-030000 557 557 ``` The total amount of data (compressed with gzip) is 3.2TB in total (average 31Gb per month, [[https://pastebin.com/raw/cRfdX9Ds|complete list]]) , but as you can see above there is a fair amount of repetition of data. How can I provide this data so to setup a working API?26570726f6475636520796f757220627567207573696e67206120726563656e742076657273696f6e206f662074686520736f6674776172652c20746f2068652077696b6920636f6e74656e74206c616e67756167652e0a0a5468616e6b20796f752e0a546167730a436865636b557365720ad70a436f6e6e65637465642d4f70656e2d48657269746167652d42617463682d75706c6f61647320285241c42d4b4d425f315f323031372d3032290ad70a54616d696c2d53697465730ad70a47616d6570726573730ad70a48617368746167730ad70a4a4144450ad70a4b6172746f456469746f720ad70a4c616e67756167652d323031382d4170722d4a756e650ad70a4e65772d456469746f722d457870657269656e6365730ad70a4d61696c0ad70a5443422d5465616d0ad70a53756273637269626572730a4465736372697074696f6e20507265766965770a436f6e74656e77a6f6e652073657474696e6720696e20796f75722070726f66696c652c20636c69636b20746f207265636f6e63696c652e