mwdumper still has UTF-8 problems with Xerces
Closed, ResolvedPublic
Actions

Assigned To

Authored By

	• brion
	Sep 26 2017, 11:27 PM

Description

From GitHub comment:

This still isn't fully resolved from T59236 etc. Recommendation is to use the default Java UTF8Reader instead of the Xerces one, which should be fine with current Java versions.

Details

	Subject	Repo	Branch	Lines +/-
	Workaround to use JVM's UTF-8 decoder in place of Xerces one	mediawiki/tools/mwdumper	master	+7 -1

Customize query in gerrit

Related Objects

Mentioned Here: T59236: ERROR 1064: SQL syntax error near ''{{Infobox military person\n|name=Alexander Holle\n|birth_date=27 February 1898\' at line 1 (mwdumper fails to import English WP dump)

Event Timeline

• brion created this task.Sep 26 2017, 11:27 PM

Restricted Application added a subscriber: Aklapper. · View Herald TranscriptSep 26 2017, 11:27 PM

Change 381733 had a related patch set uploaded (by Brion VIBBER; owner: Brion VIBBER):
[mediawiki/tools/mwdumper@master] Workaround to use JVM's UTF-8 decoder in place of Xerces one

https://gerrit.wikimedia.org/r/381733

gerritbot added a project: Patch-For-Review.Oct 2 2017, 7:03 AM

Change 381733 merged by jenkins-bot:
[mediawiki/tools/mwdumper@master] Workaround to use JVM's UTF-8 decoder in place of Xerces one

https://gerrit.wikimedia.org/r/381733

@brion: Patch has been merged in Gerrit. Can this task be resolved, or is there more to do in this task?

No reply from @brion hence assuming this has been fixed

mwdumper still has UTF-8 problems with XercesClosed, ResolvedPublicActions

Description

Details

Related Objects

Event Timeline

mwdumper still has UTF-8 problems with Xerces
Closed, ResolvedPublic
Actions