Serious problem with non-ASCII words

Boris 'pi' Piwinger 3.14 at logic.univie.ac.at
Fri Sep 20 16:47:48 CEST 2002


Hi!

I have a couple of spam mail which are never recognized by bogofilter.
No I took one and used -S, but the spamicity did not change much. So I
had a closer look (-v):
#  0.037915  0.037915  morgen
#  0.054273  0.002256  kommt
#  0.096384  0.000241  nnten
#  0.096908  0.000026  interessiert
#  0.104436  0.000003  davon
#  0.117142  0.000000  nnte
#  0.161131  0.000000  rde
#  0.163703  0.000000  prinz
#  0.165846  0.000000  sich
#  0.165991  0.000000  eur
#  0.837090  0.000000  windows-1252
#  0.878367  0.000000  nes
#  0.990000  0.000002  evil
#  0.990000  0.000217  mail.mailer.de
#  0.990000  0.021005  score
#  Spamicity of 0.021005

The mail actually was in German. Those of you who speak German will
note that several of the words above are not German words. Here is how
they appear (I underline them):

[3.14 at pi ~/.procmail]$ pcregrep 'nnten|nnte|rde|nes' test
Hast Lust ab morgen ein Schönes Wochenende mit mir zu verbringen?
                            ~~~
Wir könnten ja mal Essen gehen und dann sehen wir weiter, was hältst
      ~~~~~
du davon?
Währe schön, wenn es mal klappen könnte! Bis jetzt haben sich nur
                                   ~~~~
Angeber gemeldet, die mir erzählt haben wie lange und wie oft sie
hintereinander  können!
Also wenn Lust auf etwas Prickelndes hast melde dich heute noch!!
Würde mich tierisch freuen !
  ~~~


Clearly, this destroys the whole idea of finding words which are good
or bad.

pi


For summay digest subscription: bogofilter-digest-subscribe at aotto.com



More information about the Bogofilter mailing list