allow TextCat to use multiple language model directories
Closed, ResolvedPublic
Actions

Assigned To

Authored By

	TJones
	Oct 27 2016, 3:47 PM

Description

Allows us to use WikiText-based models and query-text-based models without having to put them in one directory (which requires duplication and confuses provenance). Generalize to any number of directories. Expected outcome is improved recall and possible boost to precision, by identifying some languages for which we have no query-text-based models, but for which we have or can easily generate wiki-text-based models.

Update Perl and PHP versions of TextCat.

Details

	Subject	Repo	Branch	Lines +/-
	Allow TextCat to use multiple language model directories	wikimedia/textcat	master	+81 -38

Customize query in gerrit

Related Objects
Search...

Status	Assigned	Task
Open	None	T118278 [EPIC] Improve Language Identification for use in Cirrus Search
Resolved	TJones	T140289 Investigate Improvements and Confidence Measures for TextCat Language Detection
Resolved	TJones	T149316 allow TextCat to use multiple language model directories

Event Timeline

TJones created this task.Oct 27 2016, 3:47 PM

Restricted Application added a project: Discovery-Search. · View Herald TranscriptOct 27 2016, 3:47 PM

Restricted Application added a subscriber: Aklapper. · View Herald Transcript

debt moved this task from needs triage to Up Next on the Discovery-Search board.Oct 27 2016, 8:38 PM

TJones edited projects, added Discovery-Search (Current work); removed Discovery-Search.Nov 10 2016, 3:10 PM

TJones moved this task from Incoming to not in use - please delete on the Discovery-Search (Current work) board.

Change 320852 had a related patch set uploaded (by Tjones):
Allow TextCat to use multiple language model directories

https://gerrit.wikimedia.org/r/320852

gerritbot added a project: Patch-For-Review.Nov 10 2016, 9:09 PM

Write up on effects here: https://www.mediawiki.org/wiki/User:TJones_(WMF)/Notes/TextCat_Improvements#Multiple_Language_Model_Directories

TJones moved this task from not in use - please delete to Needs review on the Discovery-Search (Current work) board.Nov 14 2016, 7:49 PM

Change 320852 merged by jenkins-bot:
Allow TextCat to use multiple language model directories

https://gerrit.wikimedia.org/r/320852

TJones moved this task from Needs review to Needs Reporting on the Discovery-Search (Current work) board.Nov 29 2016, 4:33 PM

• Deskana closed this task as Resolved.Dec 8 2016, 6:52 PM

allow TextCat to use multiple language model directoriesClosed, ResolvedPublicActions

Description

Details

Related ObjectsSearch...

Event Timeline

allow TextCat to use multiple language model directories
Closed, ResolvedPublic
Actions

Related Objects
Search...