Arabic tokens don't contain the original input strings
Closed, ResolvedPublic
Actions

Assigned To

Authored By

	Sebastian_Berlin-WMSE
	Oct 21 2017, 1:10 PM

Description

When a request is sent to the TTS server with Arabic as language, the tokens in the response don't contain the input strings. Instead they include (as far as I can tell) vocalized versions of the input. The exact input is needed to match the tokens to the text.

This affects at least word highlighting (T168948) and reciting selected text (T133680).

Related Objects
Search...

Status	Assigned	Task
Resolved	Sebastian_Berlin-WMSE	T121220 [Story] Recitation of marked text (Wikispeech)
Open	None	T181119 Autofill fields in the editor
Resolved	Sebastian_Berlin-WMSE	T133680 [Task] Functionality: Play selected text (Wikispeech)
Resolved	Sebastian_Berlin-WMSE	T168948 Word higlighting broken for Arabic
Resolved	HaraldBerthelsen	T178738 Arabic tokens don't contain the original input strings

Event Timeline

Sebastian_Berlin-WMSE created this task.Oct 21 2017, 1:10 PM

Sebastian_Berlin-WMSE added parent tasks: T168948: Word higlighting broken for Arabic, T133680: [Task] Functionality: Play selected text (Wikispeech).

@HaraldBerthelsen. @HannaLindgren, @NikolajLindberg: Do you have a solution for this? I need it for T133680: [Task] Functionality: Play selected text (Wikispeech), which won't work with Arabic otherwise.

What call are you using for this?
It seems to work for me, so maybe we are doing it differently somehow. Or else my tests just happen to work. Can you give an example of a call that fails?

Example call that works for me:

http://localhost:10000/wikispeech/?lang=ar&input_type=text&input=%D8%A8%D9%88%D8%A8%20%D8%AF%D9%8A%D9%84%D9%86

Response:

{
audio: "http://localhost/audio/tmpqe44dsxl.opus",
message: [
"output token "بُوبُ" not found in input string "بوب ديلن"",
"REPLACED: بُوبُ -> بوب"
],
tokens: [
{
endtime: 0.225,
orth: "بوب"
},
{
endtime: 0.635,
orth: "ديلن"
},
{
endtime: 1.035,
orth: ""
}
]
}

I just now noticed that there is a warning message in the response. I should've included it in the original post; that's my bad.

Here's an example:

/wikispeech/?lang=ar&input_type=text&input=بوب+ديلن+Bob+Dylan+اسمه+الحقيقي+روبرت+ألن+زيمرمان+ولد+في+24+مايو+1941+هو+مغني+وملحن+وشاعر+وفنان+أمريكي+يتمتع+بصوت+رائع+ومرن،+لقد+كان+شخصية+مؤثرة+في+الموسيقى+والثقافة+الشعبية+لأكثر+من+خمسة+عقود.

gives

{

    "audio": "https://wikispeech-tts-audio.wmflabs.org/audio/tmpm8tq90fz.opus",
    "message": [
        "output token \"بُوبُ\" not found in input string \"بوب ديلن Bob Dylan اسمه الحقيقي روبرت ألن زيمرمان ولد في 24 مايو 1941 هو مغني وملحن وشاعر وفنان أمريكي يتمتع بصوت رائع ومرن، لقد كان شخصية مؤثرة في الموسيقى والثقافة الشعبية لأكثر من خمسة عقود.\"",
        "output token \"اِسْمهُ\" not found in input string \"بوب ديلن Bob Dylan اسمه الحقيقي روبرت ألن زيمرمان ولد في 24 مايو 1941 هو مغني وملحن وشاعر وفنان أمريكي يتمتع بصوت رائع ومرن، لقد كان شخصية مؤثرة في الموسيقى والثقافة الشعبية لأكثر من خمسة عقود.\"",
        "output token \"الْحَقِيقِيَّ\" not found in input string \"بوب ديلن Bob Dylan اسمه الحقيقي روبرت ألن زيمرمان ولد في 24 مايو 1941 هو مغني وملحن وشاعر وفنان أمريكي يتمتع بصوت رائع ومرن، لقد كان شخصية مؤثرة في الموسيقى والثقافة الشعبية لأكثر من خمسة عقود.\"",
        "output token \"رُوبِرْتً\" not found in input string \"بوب ديلن Bob Dylan اسمه الحقيقي روبرت ألن زيمرمان ولد في 24 مايو 1941 هو مغني وملحن وشاعر وفنان أمريكي يتمتع بصوت رائع ومرن، لقد كان شخصية مؤثرة في الموسيقى والثقافة الشعبية لأكثر من خمسة عقود.\"",
        "output token \"أَلَنْ\" not found in input string \"بوب ديلن Bob Dylan اسمه الحقيقي روبرت ألن زيمرمان ولد في 24 مايو 1941 هو مغني وملحن وشاعر وفنان أمريكي يتمتع بصوت رائع ومرن، لقد كان شخصية مؤثرة في الموسيقى والثقافة الشعبية لأكثر من خمسة عقود.\"",
        "output token \"وَلَد\" not found in input string \"بوب ديلن Bob Dylan اسمه الحقيقي روبرت ألن زيمرمان ولد في 24 مايو 1941 هو مغني وملحن وشاعر وفنان أمريكي يتمتع بصوت رائع ومرن، لقد كان شخصية مؤثرة في الموسيقى والثقافة الشعبية لأكثر من خمسة عقود.\"",
        "output token \"فِي\" not found in input string \"بوب ديلن Bob Dylan اسمه الحقيقي روبرت ألن زيمرمان ولد في 24 مايو 1941 هو مغني وملحن وشاعر وفنان أمريكي يتمتع بصوت رائع ومرن، لقد كان شخصية مؤثرة في الموسيقى والثقافة الشعبية لأكثر من خمسة عقود.\"",
        "output token \"مَايُو\" not found in input string \"بوب ديلن Bob Dylan اسمه الحقيقي روبرت ألن زيمرمان ولد في 24 مايو 1941 هو مغني وملحن وشاعر وفنان أمريكي يتمتع بصوت رائع ومرن، لقد كان شخصية مؤثرة في الموسيقى والثقافة الشعبية لأكثر من خمسة عقود.\"",
        "output token \"هُوَ\" not found in input string \"بوب ديلن Bob Dylan اسمه الحقيقي روبرت ألن زيمرمان ولد في 24 مايو 1941 هو مغني وملحن وشاعر وفنان أمريكي يتمتع بصوت رائع ومرن، لقد كان شخصية مؤثرة في الموسيقى والثقافة الشعبية لأكثر من خمسة عقود.\"",
        "output token \"وَمُلَحِّن\" not found in input string \"بوب ديلن Bob Dylan اسمه الحقيقي روبرت ألن زيمرمان ولد في 24 مايو 1941 هو مغني وملحن وشاعر وفنان أمريكي يتمتع بصوت رائع ومرن، لقد كان شخصية مؤثرة في الموسيقى والثقافة الشعبية لأكثر من خمسة عقود.\"",
        "output token \"وَشَاعِر\" not found in input string \"بوب ديلن Bob Dylan اسمه الحقيقي روبرت ألن زيمرمان ولد في 24 مايو 1941 هو مغني وملحن وشاعر وفنان أمريكي يتمتع بصوت رائع ومرن، لقد كان شخصية مؤثرة في الموسيقى والثقافة الشعبية لأكثر من خمسة عقود.\"",
        "output token \"وَفَنَّانِ\" not found in input string \"بوب ديلن Bob Dylan اسمه الحقيقي روبرت ألن زيمرمان ولد في 24 مايو 1941 هو مغني وملحن وشاعر وفنان أمريكي يتمتع بصوت رائع ومرن، لقد كان شخصية مؤثرة في الموسيقى والثقافة الشعبية لأكثر من خمسة عقود.\"",
        "output token \"أَمْرِيكِيّ\" not found in input string \"بوب ديلن Bob Dylan اسمه الحقيقي روبرت ألن زيمرمان ولد في 24 مايو 1941 هو مغني وملحن وشاعر وفنان أمريكي يتمتع بصوت رائع ومرن، لقد كان شخصية مؤثرة في الموسيقى والثقافة الشعبية لأكثر من خمسة عقود.\"",
        "output token \"يَتَمَتَّع\" not found in input string \"بوب ديلن Bob Dylan اسمه الحقيقي روبرت ألن زيمرمان ولد في 24 مايو 1941 هو مغني وملحن وشاعر وفنان أمريكي يتمتع بصوت رائع ومرن، لقد كان شخصية مؤثرة في الموسيقى والثقافة الشعبية لأكثر من خمسة عقود.\"",
        "output token \"بِصَوْت\" not found in input string \"بوب ديلن Bob Dylan اسمه الحقيقي روبرت ألن زيمرمان ولد في 24 مايو 1941 هو مغني وملحن وشاعر وفنان أمريكي يتمتع بصوت رائع ومرن، لقد كان شخصية مؤثرة في الموسيقى والثقافة الشعبية لأكثر من خمسة عقود.\"",
        "output token \"رَائِع\" not found in input string \"بوب ديلن Bob Dylan اسمه الحقيقي روبرت ألن زيمرمان ولد في 24 مايو 1941 هو مغني وملحن وشاعر وفنان أمريكي يتمتع بصوت رائع ومرن، لقد كان شخصية مؤثرة في الموسيقى والثقافة الشعبية لأكثر من خمسة عقود.\"",
        "output token \"وَمُرِنّ\" not found in input string \"بوب ديلن Bob Dylan اسمه الحقيقي روبرت ألن زيمرمان ولد في 24 مايو 1941 هو مغني وملحن وشاعر وفنان أمريكي يتمتع بصوت رائع ومرن، لقد كان شخصية مؤثرة في الموسيقى والثقافة الشعبية لأكثر من خمسة عقود.\"",
        "output token \",\" not found in input string \"بوب ديلن Bob Dylan اسمه الحقيقي روبرت ألن زيمرمان ولد في 24 مايو 1941 هو مغني وملحن وشاعر وفنان أمريكي يتمتع بصوت رائع ومرن، لقد كان شخصية مؤثرة في الموسيقى والثقافة الشعبية لأكثر من خمسة عقود.\"",
        "output token \"لِقَدّ\" not found in input string \"بوب ديلن Bob Dylan اسمه الحقيقي روبرت ألن زيمرمان ولد في 24 مايو 1941 هو مغني وملحن وشاعر وفنان أمريكي يتمتع بصوت رائع ومرن، لقد كان شخصية مؤثرة في الموسيقى والثقافة الشعبية لأكثر من خمسة عقود.\"",
        "output token \"كَانَ\" not found in input string \"بوب ديلن Bob Dylan اسمه الحقيقي روبرت ألن زيمرمان ولد في 24 مايو 1941 هو مغني وملحن وشاعر وفنان أمريكي يتمتع بصوت رائع ومرن، لقد كان شخصية مؤثرة في الموسيقى والثقافة الشعبية لأكثر من خمسة عقود.\"",
        "output token \"شَخْصِيَّة\" not found in input string \"بوب ديلن Bob Dylan اسمه الحقيقي روبرت ألن زيمرمان ولد في 24 مايو 1941 هو مغني وملحن وشاعر وفنان أمريكي يتمتع بصوت رائع ومرن، لقد كان شخصية مؤثرة في الموسيقى والثقافة الشعبية لأكثر من خمسة عقود.\"",
        "output token \"مُؤَثِّرَة\" not found in input string \"بوب ديلن Bob Dylan اسمه الحقيقي روبرت ألن زيمرمان ولد في 24 مايو 1941 هو مغني وملحن وشاعر وفنان أمريكي يتمتع بصوت رائع ومرن، لقد كان شخصية مؤثرة في الموسيقى والثقافة الشعبية لأكثر من خمسة عقود.\"",
        "output token \"فِي\" not found in input string \"بوب ديلن Bob Dylan اسمه الحقيقي روبرت ألن زيمرمان ولد في 24 مايو 1941 هو مغني وملحن وشاعر وفنان أمريكي يتمتع بصوت رائع ومرن، لقد كان شخصية مؤثرة في الموسيقى والثقافة الشعبية لأكثر من خمسة عقود.\"",
        "output token \"الْمُوسِيقَى\" not found in input string \"بوب ديلن Bob Dylan اسمه الحقيقي روبرت ألن زيمرمان ولد في 24 مايو 1941 هو مغني وملحن وشاعر وفنان أمريكي يتمتع بصوت رائع ومرن، لقد كان شخصية مؤثرة في الموسيقى والثقافة الشعبية لأكثر من خمسة عقود.\"",
        "output token \"وَالثَّقَافَة\" not found in input string \"بوب ديلن Bob Dylan اسمه الحقيقي روبرت ألن زيمرمان ولد في 24 مايو 1941 هو مغني وملحن وشاعر وفنان أمريكي يتمتع بصوت رائع ومرن، لقد كان شخصية مؤثرة في الموسيقى والثقافة الشعبية لأكثر من خمسة عقود.\"",
        "output token \"الشَّعْبِيَّة\" not found in input string \"بوب ديلن Bob Dylan اسمه الحقيقي روبرت ألن زيمرمان ولد في 24 مايو 1941 هو مغني وملحن وشاعر وفنان أمريكي يتمتع بصوت رائع ومرن، لقد كان شخصية مؤثرة في الموسيقى والثقافة الشعبية لأكثر من خمسة عقود.\"",
        "output token \"لِأَكْثَر\" not found in input string \"بوب ديلن Bob Dylan اسمه الحقيقي روبرت ألن زيمرمان ولد في 24 مايو 1941 هو مغني وملحن وشاعر وفنان أمريكي يتمتع بصوت رائع ومرن، لقد كان شخصية مؤثرة في الموسيقى والثقافة الشعبية لأكثر من خمسة عقود.\"",
        "output token \"مِنْ\" not found in input string \"بوب ديلن Bob Dylan اسمه الحقيقي روبرت ألن زيمرمان ولد في 24 مايو 1941 هو مغني وملحن وشاعر وفنان أمريكي يتمتع بصوت رائع ومرن، لقد كان شخصية مؤثرة في الموسيقى والثقافة الشعبية لأكثر من خمسة عقود.\"",
        "output token \"خَمْسَة\" not found in input string \"بوب ديلن Bob Dylan اسمه الحقيقي روبرت ألن زيمرمان ولد في 24 مايو 1941 هو مغني وملحن وشاعر وفنان أمريكي يتمتع بصوت رائع ومرن، لقد كان شخصية مؤثرة في الموسيقى والثقافة الشعبية لأكثر من خمسة عقود.\"",
        "output token \"عُقُود\" not found in input string \"بوب ديلن Bob Dylan اسمه الحقيقي روبرت ألن زيمرمان ولد في 24 مايو 1941 هو مغني وملحن وشاعر وفنان أمريكي يتمتع بصوت رائع ومرن، لقد كان شخصية مؤثرة في الموسيقى والثقافة الشعبية لأكثر من خمسة عقود.\"",
        "WARNING: Unable to correct output token list. Input contains 37 tokens, output contains 38 non-empty tokens.",
        "input token list : ['بوب', 'ديلن', 'Bob', 'Dylan', 'اسمه', 'الحقيقي', 'روبرت', 'ألن', 'زيمرمان', 'ولد', 'في', '24', 'مايو', '1941', 'هو', 'مغني', 'وملحن', 'وشاعر', 'وفنان', 'أمريكي', 'يتمتع', 'بصوت', 'رائع', 'ومرن،', 'لقد', 'كان', 'شخصية', 'مؤثرة', 'في', 'الموسيقى', 'والثقافة', 'الشعبية', 'لأكثر', 'من', 'خمسة', 'عقود', '.']",
        "output token list: ['بُوبُ', 'ديلن', 'Bob', 'Dylan', 'اِسْمهُ', 'الْحَقِيقِيَّ', 'رُوبِرْتً', 'أَلَنْ', 'زيمرمان', 'وَلَد', 'فِي', '24', 'مَايُو', '1941', 'هُوَ', 'مغني', 'وَمُلَحِّن', 'وَشَاعِر', 'وَفَنَّانِ', 'أَمْرِيكِيّ', 'يَتَمَتَّع', 'بِصَوْت', 'رَائِع', 'وَمُرِنّ', ',', 'لِقَدّ', 'كَانَ', 'شَخْصِيَّة', 'مُؤَثِّرَة', 'فِي', 'الْمُوسِيقَى', 'وَالثَّقَافَة', 'الشَّعْبِيَّة', 'لِأَكْثَر', 'مِنْ', 'خَمْسَة', 'عُقُود', '.']"
    ],
    "tokens": [
        {
            "endtime": 0.235,
            "orth": "بُوبُ"
        },
        {
            "endtime": 0.61,
            "orth": "ديلن"
        },
        {
            "endtime": 0.835,
            "orth": "Bob"
        },
        {
            "endtime": 1.185,
            "orth": "Dylan"
        },
        {
            "endtime": 1.855,
            "orth": "اِسْمهُ"
        },
        {
            "endtime": 2.94,
            "orth": "الْحَقِيقِيَّ"
        },
        {
            "endtime": 3.635,
            "orth": "رُوبِرْتً"
        },
        {
            "endtime": 4.04,
            "orth": "أَلَنْ"
        },
        {
            "endtime": 4.755,
            "orth": "زيمرمان"
        },
        {
            "endtime": 5.13,
            "orth": "وَلَد"
        },
        {
            "endtime": 5.395,
            "orth": "فِي"
        },
        {
            "endtime": 6.82,
            "expanded": "أَرْبَعَة وَ عِشْرُونَ",
            "orth": "24"
        },
        {
            "endtime": 7.34,
            "orth": "مَايُو"
        },
        {
            "endtime": 10.215,
            "expanded": "ألْف وَ تِسْعَة مِائَة وَ وَاحِد وَ أَرْبَعُونَ",
            "orth": "1941"
        },
        {
            "endtime": 10.505,
            "orth": "هُوَ"
        },
        {
            "endtime": 10.81,
            "orth": "مغني"
        },
        {
            "endtime": 11.59,
            "orth": "وَمُلَحِّن"
        },
        {
            "endtime": 12.255,
            "orth": "وَشَاعِر"
        },
        {
            "endtime": 13.04,
            "orth": "وَفَنَّانِ"
        },
        {
            "endtime": 13.85,
            "orth": "أَمْرِيكِيّ"
        },
        {
            "endtime": 14.66,
            "orth": "يَتَمَتَّع"
        },
        {
            "endtime": 15.21,
            "orth": "بِصَوْت"
        },
        {
            "endtime": 15.71,
            "orth": "رَائِع"
        },
        {
            "endtime": 16.3,
            "orth": "وَمُرِنّ"
        },
        {
            "endtime": 16.3,
            "orth": ","
        },
        {
            "endtime": 16.69,
            "orth": ""
        },
        {
            "endtime": 17.18,
            "orth": "لِقَدّ"
        },
        {
            "endtime": 17.485,
            "orth": "كَانَ"
        },
        {
            "endtime": 18.245,
            "orth": "شَخْصِيَّة"
        },
        {
            "endtime": 18.94,
            "orth": "مُؤَثِّرَة"
        },
        {
            "endtime": 19.205,
            "orth": "فِي"
        },
        {
            "endtime": 20.005,
            "orth": "الْمُوسِيقَى"
        },
        {
            "endtime": 20.875,
            "orth": "وَالثَّقَافَة"
        },
        {
            "endtime": 21.63,
            "orth": "الشَّعْبِيَّة"
        },
        {
            "endtime": 22.245,
            "orth": "لِأَكْثَر"
        },
        {
            "endtime": 22.485,
            "orth": "مِنْ"
        },
        {
            "endtime": 22.955,
            "orth": "خَمْسَة"
        },
        {
            "endtime": 23.515,
            "orth": "عُقُود"
        },
        {
            "endtime": 23.515,
            "orth": "."
        },
        {
            "endtime": 23.91,
            "orth": ""
        }
    ]

}

Hm.. The example works for me (see json output below).
But that doesn't mean that it's actually solved in a sensible way. It's just a guess at what the client wants. Bound to go wrong in complicated cases like this, with text going in both directions and unusual punctuation characters.
The specific problem in your case is in the word ومرن ، which has an upside down comma after it, you can see the comma as a separate token in the output token list but not in the input.
So even if you can update so that we use the same version, and solve this problem, we should still think of a better way of solving the issue.

{
audio: "http://localhost/audio/tmpgabjljnd.opus",
message: [
"output token "بُوبُ" not found in input string "بوب ديلن Bob Dylan اسمه الحقيقي روبرت ألن زيمرمان ولد في 24 مايو 1941 هو مغني وملحن وشاعر وفنان أمريكي يتمتع بصوت رائع ومرن، لقد كان شخصية مؤثرة في الموسيقى والثقافة الشعبية لأكثر من خمسة عقود."",
"output token "اِسْمهُ" not found in input string "بوب ديلن Bob Dylan اسمه الحقيقي روبرت ألن زيمرمان ولد في 24 مايو 1941 هو مغني وملحن وشاعر وفنان أمريكي يتمتع بصوت رائع ومرن، لقد كان شخصية مؤثرة في الموسيقى والثقافة الشعبية لأكثر من خمسة عقود."",
"output token "الْحَقِيقِيَّ" not found in input string "بوب ديلن Bob Dylan اسمه الحقيقي روبرت ألن زيمرمان ولد في 24 مايو 1941 هو مغني وملحن وشاعر وفنان أمريكي يتمتع بصوت رائع ومرن، لقد كان شخصية مؤثرة في الموسيقى والثقافة الشعبية لأكثر من خمسة عقود."",
"output token "رُوبِرْتً" not found in input string "بوب ديلن Bob Dylan اسمه الحقيقي روبرت ألن زيمرمان ولد في 24 مايو 1941 هو مغني وملحن وشاعر وفنان أمريكي يتمتع بصوت رائع ومرن، لقد كان شخصية مؤثرة في الموسيقى والثقافة الشعبية لأكثر من خمسة عقود."",
"output token "أَلَنْ" not found in input string "بوب ديلن Bob Dylan اسمه الحقيقي روبرت ألن زيمرمان ولد في 24 مايو 1941 هو مغني وملحن وشاعر وفنان أمريكي يتمتع بصوت رائع ومرن، لقد كان شخصية مؤثرة في الموسيقى والثقافة الشعبية لأكثر من خمسة عقود."",
"output token "وَلَد" not found in input string "بوب ديلن Bob Dylan اسمه الحقيقي روبرت ألن زيمرمان ولد في 24 مايو 1941 هو مغني وملحن وشاعر وفنان أمريكي يتمتع بصوت رائع ومرن، لقد كان شخصية مؤثرة في الموسيقى والثقافة الشعبية لأكثر من خمسة عقود."",
"output token "فِي" not found in input string "بوب ديلن Bob Dylan اسمه الحقيقي روبرت ألن زيمرمان ولد في 24 مايو 1941 هو مغني وملحن وشاعر وفنان أمريكي يتمتع بصوت رائع ومرن، لقد كان شخصية مؤثرة في الموسيقى والثقافة الشعبية لأكثر من خمسة عقود."",
"output token "مَايُو" not found in input string "بوب ديلن Bob Dylan اسمه الحقيقي روبرت ألن زيمرمان ولد في 24 مايو 1941 هو مغني وملحن وشاعر وفنان أمريكي يتمتع بصوت رائع ومرن، لقد كان شخصية مؤثرة في الموسيقى والثقافة الشعبية لأكثر من خمسة عقود."",
"output token "هُوَ" not found in input string "بوب ديلن Bob Dylan اسمه الحقيقي روبرت ألن زيمرمان ولد في 24 مايو 1941 هو مغني وملحن وشاعر وفنان أمريكي يتمتع بصوت رائع ومرن، لقد كان شخصية مؤثرة في الموسيقى والثقافة الشعبية لأكثر من خمسة عقود."",
"output token "وَمُلَحِّن" not found in input string "بوب ديلن Bob Dylan اسمه الحقيقي روبرت ألن زيمرمان ولد في 24 مايو 1941 هو مغني وملحن وشاعر وفنان أمريكي يتمتع بصوت رائع ومرن، لقد كان شخصية مؤثرة في الموسيقى والثقافة الشعبية لأكثر من خمسة عقود."",
"output token "وَشَاعِر" not found in input string "بوب ديلن Bob Dylan اسمه الحقيقي روبرت ألن زيمرمان ولد في 24 مايو 1941 هو مغني وملحن وشاعر وفنان أمريكي يتمتع بصوت رائع ومرن، لقد كان شخصية مؤثرة في الموسيقى والثقافة الشعبية لأكثر من خمسة عقود."",
"output token "وَفَنَّانِ" not found in input string "بوب ديلن Bob Dylan اسمه الحقيقي روبرت ألن زيمرمان ولد في 24 مايو 1941 هو مغني وملحن وشاعر وفنان أمريكي يتمتع بصوت رائع ومرن، لقد كان شخصية مؤثرة في الموسيقى والثقافة الشعبية لأكثر من خمسة عقود."",
"output token "أَمْرِيكِيّ" not found in input string "بوب ديلن Bob Dylan اسمه الحقيقي روبرت ألن زيمرمان ولد في 24 مايو 1941 هو مغني وملحن وشاعر وفنان أمريكي يتمتع بصوت رائع ومرن، لقد كان شخصية مؤثرة في الموسيقى والثقافة الشعبية لأكثر من خمسة عقود."",
"output token "يَتَمَتَّع" not found in input string "بوب ديلن Bob Dylan اسمه الحقيقي روبرت ألن زيمرمان ولد في 24 مايو 1941 هو مغني وملحن وشاعر وفنان أمريكي يتمتع بصوت رائع ومرن، لقد كان شخصية مؤثرة في الموسيقى والثقافة الشعبية لأكثر من خمسة عقود."",
"output token "بِصَوْت" not found in input string "بوب ديلن Bob Dylan اسمه الحقيقي روبرت ألن زيمرمان ولد في 24 مايو 1941 هو مغني وملحن وشاعر وفنان أمريكي يتمتع بصوت رائع ومرن، لقد كان شخصية مؤثرة في الموسيقى والثقافة الشعبية لأكثر من خمسة عقود."",
"output token "رَائِع" not found in input string "بوب ديلن Bob Dylan اسمه الحقيقي روبرت ألن زيمرمان ولد في 24 مايو 1941 هو مغني وملحن وشاعر وفنان أمريكي يتمتع بصوت رائع ومرن، لقد كان شخصية مؤثرة في الموسيقى والثقافة الشعبية لأكثر من خمسة عقود."",
"output token "وَمُرِنّ" not found in input string "بوب ديلن Bob Dylan اسمه الحقيقي روبرت ألن زيمرمان ولد في 24 مايو 1941 هو مغني وملحن وشاعر وفنان أمريكي يتمتع بصوت رائع ومرن، لقد كان شخصية مؤثرة في الموسيقى والثقافة الشعبية لأكثر من خمسة عقود."",
"output token "لِقَدّ" not found in input string "بوب ديلن Bob Dylan اسمه الحقيقي روبرت ألن زيمرمان ولد في 24 مايو 1941 هو مغني وملحن وشاعر وفنان أمريكي يتمتع بصوت رائع ومرن، لقد كان شخصية مؤثرة في الموسيقى والثقافة الشعبية لأكثر من خمسة عقود."",
"output token "كَانَ" not found in input string "بوب ديلن Bob Dylan اسمه الحقيقي روبرت ألن زيمرمان ولد في 24 مايو 1941 هو مغني وملحن وشاعر وفنان أمريكي يتمتع بصوت رائع ومرن، لقد كان شخصية مؤثرة في الموسيقى والثقافة الشعبية لأكثر من خمسة عقود."",
"output token "شَخْصِيَّة" not found in input string "بوب ديلن Bob Dylan اسمه الحقيقي روبرت ألن زيمرمان ولد في 24 مايو 1941 هو مغني وملحن وشاعر وفنان أمريكي يتمتع بصوت رائع ومرن، لقد كان شخصية مؤثرة في الموسيقى والثقافة الشعبية لأكثر من خمسة عقود."",
"output token "مُؤَثِّرَة" not found in input string "بوب ديلن Bob Dylan اسمه الحقيقي روبرت ألن زيمرمان ولد في 24 مايو 1941 هو مغني وملحن وشاعر وفنان أمريكي يتمتع بصوت رائع ومرن، لقد كان شخصية مؤثرة في الموسيقى والثقافة الشعبية لأكثر من خمسة عقود."",
"output token "فِي" not found in input string "بوب ديلن Bob Dylan اسمه الحقيقي روبرت ألن زيمرمان ولد في 24 مايو 1941 هو مغني وملحن وشاعر وفنان أمريكي يتمتع بصوت رائع ومرن، لقد كان شخصية مؤثرة في الموسيقى والثقافة الشعبية لأكثر من خمسة عقود."",
"output token "الْمُوسِيقَى" not found in input string "بوب ديلن Bob Dylan اسمه الحقيقي روبرت ألن زيمرمان ولد في 24 مايو 1941 هو مغني وملحن وشاعر وفنان أمريكي يتمتع بصوت رائع ومرن، لقد كان شخصية مؤثرة في الموسيقى والثقافة الشعبية لأكثر من خمسة عقود."",
"output token "وَالثَّقَافَة" not found in input string "بوب ديلن Bob Dylan اسمه الحقيقي روبرت ألن زيمرمان ولد في 24 مايو 1941 هو مغني وملحن وشاعر وفنان أمريكي يتمتع بصوت رائع ومرن، لقد كان شخصية مؤثرة في الموسيقى والثقافة الشعبية لأكثر من خمسة عقود."",
"output token "الشَّعْبِيَّة" not found in input string "بوب ديلن Bob Dylan اسمه الحقيقي روبرت ألن زيمرمان ولد في 24 مايو 1941 هو مغني وملحن وشاعر وفنان أمريكي يتمتع بصوت رائع ومرن، لقد كان شخصية مؤثرة في الموسيقى والثقافة الشعبية لأكثر من خمسة عقود."",
"output token "لِأَكْثَر" not found in input string "بوب ديلن Bob Dylan اسمه الحقيقي روبرت ألن زيمرمان ولد في 24 مايو 1941 هو مغني وملحن وشاعر وفنان أمريكي يتمتع بصوت رائع ومرن، لقد كان شخصية مؤثرة في الموسيقى والثقافة الشعبية لأكثر من خمسة عقود."",
"output token "مِنْ" not found in input string "بوب ديلن Bob Dylan اسمه الحقيقي روبرت ألن زيمرمان ولد في 24 مايو 1941 هو مغني وملحن وشاعر وفنان أمريكي يتمتع بصوت رائع ومرن، لقد كان شخصية مؤثرة في الموسيقى والثقافة الشعبية لأكثر من خمسة عقود."",
"output token "خَمْسَة" not found in input string "بوب ديلن Bob Dylan اسمه الحقيقي روبرت ألن زيمرمان ولد في 24 مايو 1941 هو مغني وملحن وشاعر وفنان أمريكي يتمتع بصوت رائع ومرن، لقد كان شخصية مؤثرة في الموسيقى والثقافة الشعبية لأكثر من خمسة عقود."",
"output token "عُقُود" not found in input string "بوب ديلن Bob Dylan اسمه الحقيقي روبرت ألن زيمرمان ولد في 24 مايو 1941 هو مغني وملحن وشاعر وفنان أمريكي يتمتع بصوت رائع ومرن، لقد كان شخصية مؤثرة في الموسيقى والثقافة الشعبية لأكثر من خمسة عقود."",
"REPLACED: بُوبُ -> بوب",
"REPLACED: اِسْمهُ -> اسمه",
"REPLACED: الْحَقِيقِيَّ -> الحقيقي",
"REPLACED: رُوبِرْتً -> روبرت",
"REPLACED: أَلَنْ -> ألن",
"REPLACED: وَلَد -> ولد",
"REPLACED: فِي -> في",
"REPLACED: مَايُو -> مايو",
"REPLACED: هُوَ -> هو",
"REPLACED: وَمُلَحِّن -> وملحن",
"REPLACED: وَشَاعِر -> وشاعر",
"REPLACED: وَفَنَّانِ -> وفنان",
"REPLACED: أَمْرِيكِيّ -> أمريكي",
"REPLACED: يَتَمَتَّع -> يتمتع",
"REPLACED: بِصَوْت -> بصوت",
"REPLACED: رَائِع -> رائع",
"REPLACED: وَمُرِنّ -> ومرن،",
"REPLACED: لِقَدّ -> لقد",
"REPLACED: كَانَ -> كان",
"REPLACED: شَخْصِيَّة -> شخصية",
"REPLACED: مُؤَثِّرَة -> مؤثرة",
"REPLACED: فِي -> في",
"REPLACED: الْمُوسِيقَى -> الموسيقى",
"REPLACED: وَالثَّقَافَة -> والثقافة",
"REPLACED: الشَّعْبِيَّة -> الشعبية",
"REPLACED: لِأَكْثَر -> لأكثر",
"REPLACED: مِنْ -> من",
"REPLACED: خَمْسَة -> خمسة",
"REPLACED: عُقُود -> عقود"
],
tokens: [
{
endtime: 0.235,
orth: "بوب"
},
{
endtime: 0.61,
orth: "ديلن"
},
{
endtime: 0.835,
orth: "Bob"
},
{
endtime: 1.185,
orth: "Dylan"
},
{
endtime: 1.855,
orth: "اسمه"
},
{
endtime: 2.94,
orth: "الحقيقي"
},
{
endtime: 3.635,
orth: "روبرت"
},
{
endtime: 4.04,
orth: "ألن"
},
{
endtime: 4.755,
orth: "زيمرمان"
},
{
endtime: 5.13,
orth: "ولد"
},
{
endtime: 5.395,
orth: "في"
},
{
endtime: 6.82,
expanded: "أَرْبَعَة وَ عِشْرُونَ",
orth: "24"
},
{
endtime: 7.34,
orth: "مايو"
},
{
endtime: 10.215,
expanded: "ألْف وَ تِسْعَة مِائَة وَ وَاحِد وَ أَرْبَعُونَ",
orth: "1941"
},
{
endtime: 10.505,
orth: "هو"
},
{
endtime: 10.81,
orth: "مغني"
},
{
endtime: 11.59,
orth: "وملحن"
},
{
endtime: 12.255,
orth: "وشاعر"
},
{
endtime: 13.04,
orth: "وفنان"
},
{
endtime: 13.85,
orth: "أمريكي"
},
{
endtime: 14.66,
orth: "يتمتع"
},
{
endtime: 15.21,
orth: "بصوت"
},
{
endtime: 15.71,
orth: "رائع"
},
{
endtime: 16.3,
orth: "ومرن،"
},
{
endtime: 16.3,
orth: ""
},
{
endtime: 16.7,
orth: ""
},
{
endtime: 17.185,
orth: "لقد"
},
{
endtime: 17.495,
orth: "كان"
},
{
endtime: 18.255,
orth: "شخصية"
},
{
endtime: 18.95,
orth: "مؤثرة"
},
{
endtime: 19.215,
orth: "في"
},
{
endtime: 20.015,
orth: "الموسيقى"
},
{
endtime: 20.885,
orth: "والثقافة"
},
{
endtime: 21.64,
orth: "الشعبية"
},
{
endtime: 22.255,
orth: "لأكثر"
},
{
endtime: 22.495,
orth: "من"
},
{
endtime: 22.965,
orth: "خمسة"
},
{
endtime: 23.52,
orth: "عقود"
},
{
endtime: 23.52,
orth: "."
},
{
endtime: 23.915,
orth: ""
}
]
}

What version are you running?

Phab-tip
You can limit the size of a block of text by putting it in code block:

```
lines=7

text goes here
```

It doesn't make the text exactly the number of lines specified, for some reason, but at least the commend become as tall.

I'm using the current from github. But not too sure about when these parts were last changed, I think it was long ago, so maybe the problem isn't there at all. Could be an encoding issue?
Anyway the right thing to do isn't to replace tokens back to original form as an afterthought, as it is now, but to either send the tokens from the client or to make sure that the original input is kept and returned from the server.

Would this be a big thing for you to fix?

No, not too big, the version on github now has a fix for it.

Great.

HannaLindgren assigned this task to HaraldBerthelsen.Nov 14 2017, 2:22 PM

Sebastian_Berlin-WMSE closed this task as Resolved.Nov 28 2017, 2:16 PM

Diffusion mentioned this in rEWIS97d534a1734f: Update patch set 2.Jun 11 2018, 6:14 AM

Restricted Application added a subscriber: alaa. · View Herald TranscriptJun 11 2018, 6:14 AM

Arabic tokens don't contain the original input stringsClosed, ResolvedPublicActions

Description

Related ObjectsSearch...

Event Timeline

Arabic tokens don't contain the original input strings
Closed, ResolvedPublic
Actions

Related Objects
Search...