Grundlagen: Filtermethoden für Spam

von Frank Kresse, 17.06.2005
PDF PDF | eBook eBook

Neuronales Netz erkennt Textmuster

Vektorpositionen spielen ebenfalls eine wichtige Rolle beim künstlichen neuronalen Netz (ANN = Artificial Neural Network). Der ANN-Ansatz versucht die Unterscheidungsfähigkeit des menschlichen Gehirns nachzuahmen. Dieses beurteilt Spam-Mails unter der Prämisse, dass solche Nachrichten „anders“ sind als jene, die erwünscht und wichtig sind.
Um zu erkennen, worin der Unterschied besteht, muss man nicht alle existierenden Spam-Mails sehen oder vorgelesen bekommen. Ein paar Beispiele genügen, um ähnliche Texte künftig richtig einzuschätzen. ANN führt diese Lernprozesse als Computersimulation durch. Dabei geht es um die Erkennung vom Mustern, gemäß derer jede Nachricht qualifiziert werden kann. Wie das menschliche Gehirn „lernt“ das neuronale Netzwerk daraus, was der Nutzer unter Spam beziehungsweise Nicht-Spam versteht. Um die Muster einordnen zu können, muss ANN zuerst trainiert werden. Das geschieht durch Analyse repräsentativer Beispiele für Spam- und erwünschte E-Mails. Voraussetzung ist natürlich eine möglichst genaue Definition, was beide kennzeichnen soll.
Mit Hilfe statistischer Methoden werden alle Begriffe, die für die Zuordnung zur jeweiligen Klasse relevant sind, in den Beispieltexten identifiziert. Wörter wie „Gratis“, „Günstig“, „Gewinner“ gehören eher auf die Spam-Seite, während „Geschäftsreise“, „Mitarbeitergespräch“, „Vertragsänderungen“ mehr auf erwünschte Post hindeuten.
Im nächsten Schritt ermittelt ANN bestimmte Muster und Kombinationen, in denen die Schlüsselbegriffe vorkommen, und errechnet für jede E-Mail einen Vektor. Das Ergebnis des Testvorgangs kann man sich (vereinfacht) als zweidimensionales Diagramm vorstellen, in dem als Spam klassifizierte Nachrichten (Vektoren) oberhalb, als Nicht-Spam erkannte unterhalb einer Trennlinie liegen. Der relative Abstand des Vektors zur Trennlinie bestimmt die Spam-/Nicht-Spam-Wahrscheinlichkeit der Nachricht. Neue E-Mails lassen sich dann ebenfalls auf Basis ihres Vektorwerts einer Seite zuordnen.
'Server-Newsletter' bestellen!
Auf der nächsten Seite: ANN in der Praxis
Seite 8 von 10
Inhalt dieses Artikels
Das könnte Sie auch interessieren
Meinungen zu diesem Artikel (2 von 2)
Mike Hartmann
24.08.06 06:13

Und was ist mit Firmen, die verschiedene Server für In- und Outbound-Mails benutzen? Beispielsweise
Lexodus
23.08.06 15:36

Grundlagen: Filtermethoden für Spam
Wieso wird hier reverse DNS-Lookup nicht erwähnt? Diese Funktion kann bei Domino Servern Seit Versio
Ihre Meinung zum Artikel
Benutzername:
Passwort: