Grundlagen: Filtermethoden für Spam

Wissen, was drin steht

Die rudimentärste Ausprägung der Inhalt-basierten Spam-Erkennung sind Wortlisten mit Signalbegriffen, die mit eingehenden E-Mails abgeglichen werden. Jedoch schafft schon die kleinste Abweichung von der Liste Probleme, etwa orthografische Änderungen in den gesuchten Ausdrücken. Generell lässt sich mit diesem Verfahren nichts über den Kontext einzelner Begriffe aussagen. Auch wenn das Wort „Angebot“ fünf Mal vorkommt, muss es nicht zwangsläufig auf einen Spam-Text hindeuten; die E-Mail würde aber gemäß der „Giftliste“ wahrscheinlich aussortiert.

Wesentlich wirkungsvoller arbeiten die so genannten heuristischen Verfahren. Sie suchen in E-Mails nicht nur nach einzelnen Begriffen, sondern nach bestimmten Textmustern und treffen auf dieser Basis die Entscheidung, ob es sich um Spam oder Nicht-Spam handelt.

Zu den wichtigsten Vertretern dieser Gruppe zählen Naive-Bayes-Filter, Support Vector Machines und das künstliche neuronale Netz.