Korrektur #1

E-Mails mit genau dem gleichen Text werden nicht als Spam erkannt.
Die Zeile "return true ? spamProbabilityFinal > 0.5 : false;" kann man viel einfacher schreiben.
Du nimmst nicht den Durchschnitt der Similarities zu allen anderen E-Mails, sondern nur das Maximum. Was hat das für einen Einfluss auf die Ergebnisse?