Serious problem with non-ASCII words
Boris 'pi' Piwinger
3.14 at logic.univie.ac.at
Fri Sep 20 16:47:48 CEST 2002
Hi!
I have a couple of spam mail which are never recognized by bogofilter.
No I took one and used -S, but the spamicity did not change much. So I
had a closer look (-v):
# 0.037915 0.037915 morgen
# 0.054273 0.002256 kommt
# 0.096384 0.000241 nnten
# 0.096908 0.000026 interessiert
# 0.104436 0.000003 davon
# 0.117142 0.000000 nnte
# 0.161131 0.000000 rde
# 0.163703 0.000000 prinz
# 0.165846 0.000000 sich
# 0.165991 0.000000 eur
# 0.837090 0.000000 windows-1252
# 0.878367 0.000000 nes
# 0.990000 0.000002 evil
# 0.990000 0.000217 mail.mailer.de
# 0.990000 0.021005 score
# Spamicity of 0.021005
The mail actually was in German. Those of you who speak German will
note that several of the words above are not German words. Here is how
they appear (I underline them):
[3.14 at pi ~/.procmail]$ pcregrep 'nnten|nnte|rde|nes' test
Hast Lust ab morgen ein Schönes Wochenende mit mir zu verbringen?
~~~
Wir könnten ja mal Essen gehen und dann sehen wir weiter, was hältst
~~~~~
du davon?
Währe schön, wenn es mal klappen könnte! Bis jetzt haben sich nur
~~~~
Angeber gemeldet, die mir erzählt haben wie lange und wie oft sie
hintereinander können!
Also wenn Lust auf etwas Prickelndes hast melde dich heute noch!!
Würde mich tierisch freuen !
~~~
Clearly, this destroys the whole idea of finding words which are good
or bad.
pi
For summay digest subscription: bogofilter-digest-subscribe at aotto.com
More information about the Bogofilter
mailing list