Standardise on Logstash field for exceptions with back traces
Closed, ResolvedPublic
Actions

Assigned To

Authored By

	Krinkle
	Sep 19 2019, 6:08 PM

Description

We currently have at least four different ways of logging the exception trace when logging messages to Logstash.

For fatal errors (channel:fatal), we use fatal_exception => Exception $e which results in fields like fatal_exception.message, fatal_exception.trace, fatal_exception.class, etc.

For uncaught exceptions (channel:exception), we use exception => Exception $e which results in fields like exception.message, exception.trace, etc.

For failed DeferredUpdates (channel:DeferredUpdates), we use [ 'message' => …, 'trace' => ], which results in fields like c_message, trace, etc. (c_message because "message" is a reserved key).

For various other ad-hoc logging we seem to use [ 'trace' => … ] mostly.

Problem: This currently means that Logstash dashboards for individual teams either have to repeat their searches several times (which is quite messy to do in Kibana last time I tried), or end up missing some variants.

Keeping ad-hoc logging separate might be okay as they're not usually errors but rather traces we tacked onto debug messages that otherwise wouldn't have a trace. We're already consistent with those so they would only require 1 duplicate search to include.

Desired outcome: Decide which way we want to log exceptions, for the first three cases above.

Proposal 1: Use exception, exception.trace etc.

Sub tasks:

Fix DeferredUpdates logger in MW core. – https://gerrit.wikimedia.org/r/553182
Fix MWExceptionHandler for fatal errors in MW core. – https://gerrit.wikimedia.org/r/549645
Fix ad-hoc uses of trace throughout MW core.
Fix ad-hoc uses of trace throughout wmf-deployed MW extensions.

Details

Subject	Repo	Branch	Lines +/-
ArticleCompile: Log trace as 'exception.trace' instead of 'trace'	mediawiki/extensions/PageTriage	master	+1 -1
ApiParsoidTrait: Log trace as 'exception.trace' instead of 'trace'	mediawiki/extensions/VisualEditor	master	+2 -2
Revision: Log traces as 'exception.trace' instead of 'trace'	mediawiki/core	master	+14 -13
rdbms: Log trace as `exception.trace` instead of `trace`	mediawiki/core	master	+3 -3
Import: Avoid unredacted trace in OptInController log warning	mediawiki/extensions/Flow	master	+1 -1
rdbms: Log debug message traces as 'exception.trace' instead of 'trace'	mediawiki/core	master	+5 -4
Avoid use of unfiltered 'getTraceAsString' in debug logs	mediawiki/extensions/AbuseFilter	master	+1 -1
context: Remove duplicate log message from RequestContext::getLanguage()	mediawiki/core	master	+0 -2
deferred: Log trace as 'exception.trace' instead of 'trace'	mediawiki/core	master	+14 -10
exception: Remove ErrorException workaround in handleFatalError()	mediawiki/core	master	+2 -12
rdbms: Log debug message traces as 'exception.trace' instead of 'trace'	mediawiki/core	REL1_32	+4 -4
exception: Log fatal exception data as 'exception' instead of 'fatal_exception'	mediawiki/core	master	+1 -1
rdbms: Log debug message traces as 'exception.trace' instead of 'trace'	mediawiki/core	REL1_31	+4 -4
rdbms: Log debug message traces as 'exception.trace' instead of 'trace'	mediawiki/core	REL1_33	+6 -6
rdbms: Log debug message traces as 'exception.trace' instead of 'trace'	mediawiki/core	REL1_34	+7 -7
rdbms: Log debug message traces as 'exception.trace' instead of 'trace'	mediawiki/core	master	+7 -7
rdbms: Log debug message traces as 'exception.trace' instead of 'trace'	mediawiki/core	wmf/1.35.0-wmf.8	+7 -7
exception: Log fatal exception data as 'exception' instead of 'fatal_exception'	mediawiki/core	wmf/1.35.0-wmf.5	+1 -1

Related Objects
Search...

		Status	Subtype	Assigned	Task
		Open		None	T258755 Add rule against use unsafe use of Exception::getTraceAsString()
		Resolved		Krinkle	T233342 Standardise on Logstash field for exceptions with back traces

Event Timeline

There are a very large number of changes, so older changes are hidden. Show Older Changes

Krinkle updated the task description. (Show Details)Sep 19 2019, 6:08 PM

Krinkle added subscribers: aaron, tstarling.

For various other ad-hoc logging we seem to use [ 'trace' => … ] mostly.

For various ad-hoc logging I typically use [ 'exception' => Exception $e ]. Overall that seems to be the more common, too.

In T233342#5507738, @Anomie wrote:

For various other ad-hoc logging we seem to use [ 'trace' => … ] mostly.

For various ad-hoc logging I typically use [ 'exception' => Exception $e ]. Overall that seems to be the more common, too.

I didn't think to look for that, thanks. Hadn't seen that one before. Core has 31 uses of trace, and 40 uses of exception (39 if not including the one for the exception channel).

Krinkle edited projects, added Performance-Team (Radar); removed Performance-Team.Sep 23 2019, 8:14 PM

Krinkle moved this task from Limbo to Watching on the Performance-Team (Radar) board.Sep 24 2019, 3:52 AM

daniel moved this task from Triage Meeting Inbox to Tracking/Watching on the Platform Engineering board.Sep 24 2019, 6:13 PM

Change 549645 had a related patch set uploaded (by Krinkle; owner: Krinkle):
[mediawiki/core@master] exception: Log fatal exception data as 'exception' instead of 'fatal_exception'

https://gerrit.wikimedia.org/r/549645

gerritbot added a project: Patch-For-Review.Nov 7 2019, 10:02 PM

• mmodell subscribed.Nov 8 2019, 2:36 AM

Change 549645 merged by jenkins-bot:
[mediawiki/core@master] exception: Log fatal exception data as 'exception' instead of 'fatal_exception'

https://gerrit.wikimedia.org/r/549645

ReleaseTaggerBot added a project: MW-1.35-notes (1.35.0-wmf.8; 2019-11-26).Nov 23 2019, 9:00 PM

Maintenance_bot removed a project: Patch-For-Review.Nov 26 2019, 11:45 AM

Change 553182 had a related patch set uploaded (by Krinkle; owner: Krinkle):
[mediawiki/core@master] deferred: Log trace as 'exception.trace' instead of 'trace'

https://gerrit.wikimedia.org/r/553182

gerritbot added a project: Patch-For-Review.Nov 26 2019, 8:42 PM

Change 553372 had a related patch set uploaded (by Krinkle; owner: Krinkle):
[mediawiki/core@wmf/1.35.0-wmf.5] exception: Log fatal exception data as 'exception' instead of 'fatal_exception'

https://gerrit.wikimedia.org/r/553372

Change 553372 merged by jenkins-bot:
[mediawiki/core@wmf/1.35.0-wmf.5] exception: Log fatal exception data as 'exception' instead of 'fatal_exception'

https://gerrit.wikimedia.org/r/553372

ReleaseTaggerBot edited projects, added MW-1.35-notes (1.35.0-wmf.5; 2019-11-05); removed MW-1.35-notes (1.35.0-wmf.8; 2019-11-26).Nov 29 2019, 5:00 AM

Confirmed via mwdebug1001. Messages in channel:fatal having caught_by: mwe_handler (not php-wmerrors), now use exception.* instead of fatal_exception. Thus matching what we do for other uncaught exceptions and what php-wmerrors uses for simpler dashboarding.

Krinkle claimed this task.Nov 29 2019, 5:09 AM

Krinkle removed a project: MW-1.35-notes (1.35.0-wmf.5; 2019-11-05).

• mmodell awarded a token.Dec 2 2019, 10:15 PM

Krinkle updated the task description. (Show Details)Dec 2 2019, 10:21 PM

Krinkle updated the task description. (Show Details)

Change 554617 had a related patch set uploaded (by SBassett; owner: SBassett):
[mediawiki/core@master] Log fatal exception data as 'exception' instead of 'trace'

https://gerrit.wikimedia.org/r/554617

Change 554637 had a related patch set uploaded (by Krinkle; owner: SBassett):
[mediawiki/core@wmf/1.35.0-wmf.8] rdbms: Log debug message traces as 'exception.trace' instead of 'trace'

https://gerrit.wikimedia.org/r/554637

Change 554617 merged by jenkins-bot:
[mediawiki/core@master] rdbms: Log debug message traces as 'exception.trace' instead of 'trace'

https://gerrit.wikimedia.org/r/554617

ReleaseTaggerBot added a project: MW-1.35-notes (1.35.0-wmf.10; 2019-12-10).Dec 4 2019, 11:00 PM

Krinkle triaged this task as Medium priority.Dec 5 2019, 12:00 AM

Change 554637 merged by jenkins-bot:
[mediawiki/core@wmf/1.35.0-wmf.8] rdbms: Log debug message traces as 'exception.trace' instead of 'trace'

https://gerrit.wikimedia.org/r/554637

ReleaseTaggerBot edited projects, added MW-1.35-notes (1.35.0-wmf.8; 2019-11-26); removed MW-1.35-notes (1.35.0-wmf.10; 2019-12-10).Dec 5 2019, 10:00 PM

Mentioned in SAL (#wikimedia-operations) [2019-12-05T22:00:47Z] <krinkle@deploy1001> Synchronized php-1.35.0-wmf.8/includes/libs/rdbms/database/: T233342 (duration: 01m 02s)

Change 556289 had a related patch set uploaded (by Reedy; owner: SBassett):
[mediawiki/core@REL1_34] rdbms: Log debug message traces as 'exception.trace' instead of 'trace'

https://gerrit.wikimedia.org/r/556289

Change 556291 had a related patch set uploaded (by Reedy; owner: SBassett):
[mediawiki/core@REL1_33] rdbms: Log debug message traces as 'exception.trace' instead of 'trace'

https://gerrit.wikimedia.org/r/556291

Change 556292 had a related patch set uploaded (by Reedy; owner: SBassett):
[mediawiki/core@REL1_32] rdbms: Log debug message traces as 'exception.trace' instead of 'trace'

https://gerrit.wikimedia.org/r/556292

Change 556293 had a related patch set uploaded (by Reedy; owner: SBassett):
[mediawiki/core@REL1_31] rdbms: Log debug message traces as 'exception.trace' instead of 'trace'

https://gerrit.wikimedia.org/r/556293

Change 556289 merged by jenkins-bot:
[mediawiki/core@REL1_34] rdbms: Log debug message traces as 'exception.trace' instead of 'trace'

https://gerrit.wikimedia.org/r/556289

Change 556293 merged by jenkins-bot:
[mediawiki/core@REL1_31] rdbms: Log debug message traces as 'exception.trace' instead of 'trace'

https://gerrit.wikimedia.org/r/556293

Change 556291 merged by jenkins-bot:
[mediawiki/core@REL1_33] rdbms: Log debug message traces as 'exception.trace' instead of 'trace'

https://gerrit.wikimedia.org/r/556291

ReleaseTaggerBot added projects: MW-1.34-notes, MW-1.31-release-notes, MW-1.33-notes.Dec 11 2019, 12:00 AM

Krinkle reassigned this task from Krinkle to Reedy.Dec 11 2019, 6:31 PM

Change 556509 had a related patch set uploaded (by Krinkle; owner: Krinkle):
[mediawiki/core@master] exception: Remove ErrorException workaround in handleFatalError()

https://gerrit.wikimedia.org/r/556509

Change 556292 merged by jenkins-bot:
[mediawiki/core@REL1_32] rdbms: Log debug message traces as 'exception.trace' instead of 'trace'

https://gerrit.wikimedia.org/r/556292

ReleaseTaggerBot added a project: MW-1.32-notes.Dec 12 2019, 2:00 AM

Change 556509 merged by jenkins-bot:
[mediawiki/core@master] exception: Remove ErrorException workaround in handleFatalError()

https://gerrit.wikimedia.org/r/556509

ReleaseTaggerBot edited projects, added MW-1.35-notes (1.35.0-wmf.11; 2019-12-17); removed MW-1.35-notes (1.35.0-wmf.8; 2019-11-26).Dec 13 2019, 7:00 PM

Change 553182 merged by jenkins-bot:
[mediawiki/core@master] deferred: Log trace as 'exception.trace' instead of 'trace'

https://gerrit.wikimedia.org/r/553182

ReleaseTaggerBot edited projects, added MW-1.35-notes (1.35.0-wmf.14; 2020-01-07); removed MW-1.35-notes (1.35.0-wmf.11; 2019-12-17).Dec 19 2019, 6:00 PM

Maintenance_bot removed a project: Patch-For-Review.Dec 19 2019, 6:10 PM

Krinkle edited projects, added Developer Productivity; removed MW-1.35-notes (1.35.0-wmf.14; 2020-01-07), MW-1.32-notes, MW-1.33-notes, MW-1.31-release-notes.Mar 6 2020, 6:09 PM

Krinkle updated the task description. (Show Details)

Krinkle mentioned this in T165675: Fatalmonitor on logstash still includes deprecated channel:wfLogDBError.Mar 24 2020, 9:17 PM

I'm not sure I understand the proposal for the "ad-hoc" case, as in

For various other ad-hoc logging we seem to use [ 'trace' => … ] mostly.

What should replace this with? This is not reporting an exception. The idea is to log a warning and include a stack trace as context. Reporting this as exception.trace would be misleading. I think the 'trace' key is fine for this use case.

In T233342#6062184, @daniel wrote:

I'm not sure I understand the proposal for the "ad-hoc" case, as in

For various other ad-hoc logging we seem to use [ 'trace' => … ] mostly.

What should replace this with?

With exception. And various ad-hoc code paths have already been updated this way from the above patches (e.g. rdbms).

Task description

Proposal: Use exception, exception.trace etc.

In T233342#6062184, @daniel wrote:

This is not reporting an exception. The idea is to log a warning and include a stack trace as context. Reporting this as exception.trace would be misleading.

It won't make it reported as an uncaught exception. It's just the name of UI field inside Kibana. Creating new RuntimeException to call getTraceAsString on directly is no more real an exception than creating it and passing it to Logger to handle deal format accordingly.

In T233342#6062184, @daniel wrote:

I think the 'trace' key is fine for this use case.

The problem is that stack traces need to be sanitized as they tend to be copy-pasted to public tasks (T234014). Doing that ad-hoc is a waste of our time, and also will inevitably lead to incidents. The other thing is that by having a consistent key, Kibana almost becomes usable and might make it so that teams can actually be effective in maintaining a dashboard to look our for events relevant to code they maintain. Which channels they monitor is their own choice, but the filter for matching stack traces will be universal (in this case, exception.trace).

Change 615839 had a related patch set uploaded (by Krinkle; owner: Krinkle):
[mediawiki/extensions/AbuseFilter@master] Avoid use of unfiltered 'getTraceAsString' in debug logs

https://gerrit.wikimedia.org/r/615839

gerritbot added a project: Patch-For-Review.Jul 23 2020, 9:41 PM

Krinkle mentioned this in T258755: Add rule against use unsafe use of Exception::getTraceAsString().Jul 23 2020, 9:45 PM

DannyS712 subscribed.Jul 23 2020, 10:07 PM

Change 615867 had a related patch set uploaded (by Krinkle; owner: Krinkle):
[mediawiki/core@master] context: Remove duplicate log message from RequestContext::getLanguage()

https://gerrit.wikimedia.org/r/615867

Change 615869 had a related patch set uploaded (by Krinkle; owner: Krinkle):
[mediawiki/core@master] rdbms: Log debug message traces as 'exception.trace' instead of 'trace'

https://gerrit.wikimedia.org/r/615869

Change 615867 merged by jenkins-bot:
[mediawiki/core@master] context: Remove duplicate log message from RequestContext::getLanguage()

https://gerrit.wikimedia.org/r/615867

Change 615839 merged by jenkins-bot:
[mediawiki/extensions/AbuseFilter@master] Avoid use of unfiltered 'getTraceAsString' in debug logs

https://gerrit.wikimedia.org/r/615839

ReleaseTaggerBot added a project: MW-1.36-notes (1.36.0-wmf.2; 2020-07-28).Jul 24 2020, 12:00 AM

Change 615869 merged by jenkins-bot:
[mediawiki/core@master] rdbms: Log debug message traces as 'exception.trace' instead of 'trace'

https://gerrit.wikimedia.org/r/615869

ReleaseTaggerBot edited projects, added MW-1.36-notes (1.36.0-wmf.9; 2020-09-15); removed MW-1.36-notes (1.36.0-wmf.2; 2020-07-28).Sep 10 2020, 6:00 PM

Aklapper removed a subscriber: Anomie.Oct 16 2020, 5:02 PM

Change 676440 had a related patch set uploaded (by Krinkle; author: Krinkle):

[mediawiki/extensions/Flow@master] Import: Avoid unredacted trace in OptInController log warning

https://gerrit.wikimedia.org/r/676440

Change 676440 merged by jenkins-bot:

[mediawiki/extensions/Flow@master] Import: Avoid unredacted trace in OptInController log warning

https://gerrit.wikimedia.org/r/676440

Krinkle added a subtask: T258755: Add rule against use unsafe use of Exception::getTraceAsString().Sep 16 2021, 6:13 PM

Change 721645 had a related patch set uploaded (by Krinkle; author: Krinkle):

[mediawiki/core@master] Revision: Log traces as 'exception.trace' instead of 'trace'

https://gerrit.wikimedia.org/r/721645

Change 779960 had a related patch set uploaded (by Krinkle; author: Krinkle):

[mediawiki/core@master] rdbms: Log trace as `exception.trace` instead of `trace`

https://gerrit.wikimedia.org/r/779960

Change 779960 merged by jenkins-bot:

[mediawiki/core@master] rdbms: Log trace as `exception.trace` instead of `trace`

https://gerrit.wikimedia.org/r/779960

ReleaseTaggerBot added a project: MW-1.39-notes (1.39.0-wmf.8; 2022-04-18).Apr 14 2022, 4:00 PM

Change 721645 merged by jenkins-bot:

[mediawiki/core@master] Revision: Log traces as 'exception.trace' instead of 'trace'

https://gerrit.wikimedia.org/r/721645

ReleaseTaggerBot edited projects, added MW-1.39-notes (1.39.0-wmf.12; 2022-05-16); removed MW-1.39-notes (1.39.0-wmf.8; 2022-04-18).May 14 2022, 4:00 AM

Krinkle removed projects: MW-1.36-notes (1.36.0-wmf.9; 2020-09-15), Patch-For-Review, MW-1.34-notes.May 15 2022, 7:50 PM

Krinkle updated the task description. (Show Details)

Krinkle removed a subtask: T258755: Add rule against use unsafe use of Exception::getTraceAsString().

Krinkle added a subtask: T258755: Add rule against use unsafe use of Exception::getTraceAsString().

Krinkle removed a subtask: T258755: Add rule against use unsafe use of Exception::getTraceAsString().

Krinkle added a parent task: T258755: Add rule against use unsafe use of Exception::getTraceAsString().

Change 791803 had a related patch set uploaded (by Krinkle; author: Krinkle):

[mediawiki/extensions/VisualEditor@master] ApiParsoidTrait: Log trace as 'exception.trace' instead of 'trace'

https://gerrit.wikimedia.org/r/791803

Change 791804 had a related patch set uploaded (by Krinkle; author: Krinkle):

[mediawiki/extensions/PageTriage@master] ArticleCompile: Log trace as 'exception.trace' instead of 'trace'

https://gerrit.wikimedia.org/r/791804

Change 791803 merged by jenkins-bot:

[mediawiki/extensions/VisualEditor@master] ApiParsoidTrait: Log trace as 'exception.trace' instead of 'trace'

https://gerrit.wikimedia.org/r/791803

Change 791804 merged by jenkins-bot:

[mediawiki/extensions/PageTriage@master] ArticleCompile: Log trace as 'exception.trace' instead of 'trace'

https://gerrit.wikimedia.org/r/791804

Krinkle closed this task as Resolved.May 16 2022, 3:07 PM

Krinkle claimed this task.

Krinkle removed a project: Patch-For-Review.

Krinkle updated the task description. (Show Details)

Krinkle edited projects, added Performance-Team; removed Performance-Team (Radar).

Krinkle moved this task from Inbox, needs triage to Backlog: Maintenance, non-prioritized on the Performance-Team board.

Krinkle added a subscriber: Reedy.

ReleaseTaggerBot edited projects, added MW-1.39-notes (1.39.0-wmf.13; 2022-05-23); removed MW-1.39-notes (1.39.0-wmf.12; 2022-05-16).May 17 2022, 6:00 AM

Standardise on Logstash field for exceptions with back tracesClosed, ResolvedPublicActions

Description

Details

Related ObjectsSearch...

Event Timeline

Standardise on Logstash field for exceptions with back traces
Closed, ResolvedPublic
Actions

Related Objects
Search...