Page MenuHomePhabricator

Track the distribution of user language on Wikidata
Closed, ResolvedPublic

Description

In order to see the coverage of wikidata by language.
The following could be used for user interface language

SELECT
  count(*) as count,
  COALESCE(up_value,'en') AS language
FROM user
LEFT JOIN
( SELECT up_user, up_value FROM user_properties WHERE user_properties.up_property = 'language' ) AS b
ON user.user_id = b.up_user
GROUP BY language
ORDER BY count;

Babel languages may be a better.

These can be counted using numbers of users in categories, for example Category:User_en-N etc.

Event Timeline

Addshore raised the priority of this task from to Needs Triage.
Addshore updated the task description. (Show Details)
Addshore subscribed.
Addshore set Security to None.

Yeah I think babel boxes reflects better what we want. Neither of them are perfect. Is there a way we can combine them? Like use babelbox for everyone who has them and interface language for everyone else? That would be the most accurate but not sure if that is reasonably easy to get.

On 2015-09-08 I wrote this as an email:

… fragte gerade nach der Zahl deutschsprachiger Benutzer auf Wikidata. Ich habe ihm eine grobe Idee verschafft … Mir fielen zwei Quellen ein:

https://www.wikidata.org/wiki/Category:Babel_-_Users_by_language

Die absoluten Zahlen zeigen an, wie viele Benutzer Babel-Bausteine auf ihren Benutzerseiten eingerichtet haben. Das machen in erster Linie Leute, die mehr als eine Sprache beherrschen, insofern kann die Datenbasis irreführend sein.

en, 2593
de, 1218
fr, 1112
es, 735
it, 478
ru, 477
nl, 256
eo, 212
la, 205
pl, 199
pt, 199
ja, 185
sv, 156
zh, 146
ar, 115
uk, 107
da, 105
...

Prozentual erhält man ein ziemlich gutes Gefühl dafür, wie sich die Community zusammen setzt:

en, 24%
de, 11.3%
fr, 10.3%
es, 6.8%
it, 4.4%
ru, 4.4%
nl, 2.4%
eo, 2%
la, 1.9%
pl, 1.8%
pt, 1.8%
ja, 1.7%
sv, 1.4%
zh, 1.4%
ar, 1.1%
uk, 1%
da, 1%
...

Meine zweite Quelle sind direkte Datenbank-Abfragen. Laut user-Tabelle sind auf wikidata.org knapp 2,3 Millionen Benutzer registriert.

Laut user_properties-Tabelle sind 47000 Benutzer so aktiv, dass sie den Bedarf entdeckt haben, irgend etwas an ihren Einstellungen anzupassen. Was man typischerweise zuerst in den Einstellungen umstellt, ist die Sprache. 42000 haben das gemacht. Englisch ist Standard, deshalb taucht es nicht auf. So ergibt sich leider überhaupt keine vernünftige Vergleichsmöglichkeit. Die 47000 zugrunde legen und in Prozent umrechnen funktioniert nicht, weil dann Englisch massiv unterrepräsentiert ist.

es, 7108
fr, 3382
de, 3373
ru, 2619
it, 1847
ar, 1697
pl, 1107
id, 1090
fa, 1053
hi, 995
ja, 993
zh, 893
zh-cn, 833
tr, 806
vi, 719
nl, 650
zh-hans, 628
cs, 627
pt, 585
pt-br, 567
uk, 527
ko, 492
he, 464
ro, 464
zh-hant, 454
el, 427
zh-tw, 382
hu, 352
ca, 337
th, 323
bn, 297
te, 290
sv, 286
ta, 276
en-gb, 221
...

Wenn ich die 24% aus der Babel-Statistik hinzu ziehe, ergibt sich diese Verteilung. (Achtung, ab hier pure Mutmaßung!)

en, 24%
es, 12.8%
fr, 6.1%
de, 6.1%
ru, 4.7%
it, 3.3%
ar, 3.1%
pl, 2%
id, 2%
fa, 1.9%
hi, 1.8%
ja, 1.8%
zh, 1.6%
zh-cn, 1.5%
tr, 1.5%
vi, 1.3%
nl, 1.2%
zh-hans, 1.1%
cs, 1.1%
pt, 1.1%
pt-br, 1%
uk, 1%
...

Yeah I think babel boxes reflects better what we want. Neither of them are perfect. Is there a way we can combine them? Like use babelbox for everyone who has them and interface language for everyone else? That would be the most accurate but not sure if that is reasonably easy to get.

It should be possible! ;)

Addshore claimed this task.

This now already appears on the dashboards