Worker einer Instanz verursacht 1,3 Millionen Exceptions / Tag
Der Worker auf einer Pilotkunden Instanz hat ca. 4,5 Millionen Exceptions produziert ungefähr 1,3 Millionen pro Tag. Das macht also - also 15 Stück pro Sekunde! Sentry Issue: SAMARBEID-BD
Der eigentliche Grund für die Exception sollte im Rahmen von #902 (closed) gefixt werden. Die Frage ist warum es überhaupt zu 4,5 Mio Exceptions durch scheinbar nur einen einzelnen Fehler kam. Es scheint als ob es nur ein einziger Fehler war der in einem Job immer wieder wiederholt wurde. Offensichtlich ist unser Worker nicht so konfiguriert wie üblich, also mit einer maximalen Anzahl von Wiederholungen und diese in immer größer werdenden Abstand. Das ist bei diesem Fehler nicht weiter dramatisch, weil von Außen nicht sichtbar, aber falls das beim Versand einer E-Mail passiert (und diese trotzdem raus geht) dann hätten wir in den letzten Tagen irgendwen mit 4,5 Mio E-Mails zugespamt.
Wir sollten also auch vor Erledigung von #880 (closed) den Worker auf ein vernünftiges production Setting bringen. Bisher hatten wir immer das folgende konfiguriert:
- 4-25 Retries (je nach Anwendung)
- Abstand 1. Retry >=5 Sekunden danach steigend sodass der letzte Retry nach ca. 14 Tage passiert (Hoffnung: Innerhalb zwei Wochen wird ein Fehler bemerkt und gefixt -> Job kann erfolgreich laufen).
- Zusätzliche Exception Meldung beim letzten (erfolglosen) Retry Zumindest die ersten beiden Punkte sollten sich auch mit GoodJob relativ einfach umsetzen lassen (https://github.com/bensheldon/good_job#retries)