Abstract of

'Spamfilterung mittels Texterkennungsverfahren'

Spam stellt ein immer größeres Problem im E-Mail Verkehr dar und erfordert zunehmend den Einsatz von Spamfiltern. Die aktuell verfügbaren Spamfilter arbeiten entropiebasiert und stützen sich in der Regel auf so genannte Bayes'sche Filter, die Spam aufgrund bedingter Wahrscheinlichkeiten klassifizieren, oder auf die Markov-Diskriminierung, die Zeichenketten in den E-Mails identifiziert und zuordnet. Die bisherigen Filtermethoden liefern zwar gute Ergebnisse, es ist jedoch sinnvoll, verschiedene Verfahren zur Filterung von Spam miteinander zu kombinieren, um bessere Ergebnisse zu erzielen. Weiterhin erschwert die Kombination verschiedener Techniken das Umgehen derartiger Filter, da verschiedene Verfahren auf unterschiedliche Charakteristiken der E-Mails abstellen. Diese Arbeit behandelt die Filterung von Spam mittels eines Textanalyseverfahrens. Dazu wird zunächst der Begriff der Entropie definiert, der weiter zum Begriff des informationsbasierten Abstands zwischen Texten und zur relativen Entropie führt. Mittels dieser relativen Entropie erfolgt nun die Klassifizierung der E-Mails. Im Gegensatz zu Bayes'schen Filtern, die jedem Wort der E-Mail eine Wahrscheinlichkeit zuordnen um die Spamwahrscheinlichkeit der E-Mail zu berechnen, betrachtet die Textanalyse den Informationsgehalt, der durch die Entropie definiert wird.