De techniek van spamming en het antwoord van filters

De nieuwste computerworm Mydoom lijkt ontworpen voor spammers. De worm zet een achterdeur in Windows-computers open, installeert een mailserver en begint met spammen. Het duidt op de verdere professionalisering van deze vermaledijde overlastveroorzakers. In dit artikel: de techniek van spam en zelflerende filters om spam te stoppen. Binnenkort meer over de gevolgen van spam voor bedrijven en wat ze eraan doen.

Vernuftig, volhardend en een dikke huid; het moeten karaktertrekken zijn van iedere spammer. Hij begint zijn werkdag met het verzamelen van mailadressen. Dat doet hij onder meer met scripts, spambots, die met een zogenaamde ‘dictionary attack’ internetaanbieders mailen. Zo’n script stuurt bijvoorbeeld een spam-bericht naar bob@computable.nl, bob-1@computable.nl, bob25a@computable.nl.

Top 10 van spammers
januari 2004

Alan Ralsky
Damon DeCrescenzo – Docdrugs
Robert Soloway – Newport Internet Marketing
Scott Richter – Wholesalebandwidth
Alexey Panov – ckync.com
Chris Smith / rizler.com
Eddy Marin – Oneroute
Thomas Cowles – Empire Towers
Eric Reinertsen
Juan Garavaglia aka Super-Zonda

(bron: Spamhaus.org)

De bot wacht uiteraard op een foutmelding: ‘die gebruiker bestaat niet’. Het script kan ook wachten op een bevestiging. Daarvoor gebruikt de spammer een gewone maar niet vaak gebruikte eigenschap van mail, waarbij het ontvangstsysteem om een reactie word gevraagd. Het spambericht bevat dan een extra regeltje (header) op de enveloppe: “Return-Receipt-To: spammers email-adres”; of “X-Confirm-Reading-To: spammers mail-adres”. In het eerste geval verzoekt de spammer om een ontvangstbevestiging, in het tweede om een bewijs dat het mailtje daadwerkelijk is gelezen. De eerste header levert een spammer een bevestiging “The following addresses had successful delivery notifications”. Of de tweede header werkt, hangt af van het gebruikte mailprogramma.
Vooral webmailverzamelpunt Hotmail en MSN worden hier door getroffen; het zijn wereldwijd de grootste aanbieders van ‘gratis’ mail. Dankzij een ‘foutje’ van de spammers zelf, wisten vrijwilligers bij de Britse spam-bestrijdingsorganisatie hun activiteiten vanaf augustus 2002 te volgen. “We hebben bewijs dat tenminste één spammer een massale ‘dictionary attack’ uitvoerde op de mailservers van zowel Hotmail als MSN. Per seconde werden drie of vier adressen uitgeprobeerd, 24 uur per dag, en dat nu al vijf maanden lang.”
Microsoft, eigenaar van beide mail-diensten, wist volgens het Spamhaus Project de aanval slechts tijdelijk af te slaan. Inmiddels zijn de veroorzakers van de aanval door het bedrijf aangeklaagd.

Http_from

Verfijndere mogelijkheden levert het gebruik van html-code in het mail-bericht. Wordt het spam-bericht geopend met een mail-programma dat html-kan ontcijferen, dan draagt de code dit programma op bijvoorbeeld een plaatje te laden dat van internet gehaald moet worden. Het mail-adres zit dan verstopt in de url-code van dat plaatje. De spammer hoeft zijn webserverlogs maar na te kijken om uit te vinden welke mail-adressen werken.
Vergelijkbare trucs kan een spammer uithalen met een website. De browser van een bezoeker laat een onwaarschijnlijke hoeveelheid gegevens achter, waarmee goede mail-adresen te achterhalen zijn. Die gegevens af te leiden, kan bijvoorbeeld met de Http_from-header. Een simpele analyse van de weblogs levert ip-adres, internet-aanbieder en browser-type op.
Iets verder gevorderde spammers maken webpagina’s die de bezoekende browsers verzoeken sommige delen op te halen via het ftp-protocol, of verlangen met een Java-script een mailtje van de browser. Een hier niet tegen beschermde browser geeft het mail-adres van de gebruiker zomaar prijs.
Spammers laten ook scripts los op de nieuwsgroepen (het zogenoemde usenet). Die programma’s halen alle berichten van een nieuwsgroep binnen, en filteren hier vervolgens alle standaard mailheaders uit: From:, CC:, Reply-To. Een ander filter haalt gewoon alles wat voor en achter een @-teken staat uit zo’n stapel berichten. Vergelijkbare scripts lopen van website naar website, op zoek naar deze Html-code Het is de spammer er natuurlijk om te doen zoveel mogelijk juiste adressen te verzamelen. Een ondoordacht doorgezonden kettingbrief (voor een goed doel, bijvoorbeeld), levert een spammer een schat aan gegevens op. Veel waarde hebben ook de mail-adressen van mailing-lijsten. Sommige mail-servers geven deze lijst desgevraagd automatisch af. Een aantal mailing-lijsten reageert op de genoemde “X-Confirm-Reading-To” header. Veel mailing-lijsten zijn ingesteld om niet alleen berichten van abonnees maar ook andere berichten rond te sturen; daar maken spammers dankbaar gebruik van.
Hoogwaardige mail-adressen kan een spammer opvragen via de openbare registers van internet-domeinnamen. Er zijn bedrijven die gegevens van bezoekers van hun websites of conferenties doorverkopen.

Kelderbedrijf

Gewapend met lijsten van mail-adressen begint de spammer aan het eigenlijke werk – het onophoudelijk en massaal versturen van mail. Top-spammer Alan Ralksy doet dat gewoon vanuit zijn eigen huis, zo vertelde hij in 2002 aan verschillende journalisten. Het tijdschrift Technology Review beschreef afgelopen augustus hoe de Amerikaan begon met gehuurde mailinglijsten en enkele servers in de kelder. Daarvandaan mailde hij aanbiedingen rond van hypotheken, vakanties, online-apotheken en casino’s.
In de begintijd verstuurden de spammers hun bulkmail via reguliere internet-aanbieders (isp’s). De meeste isp’s weigeren nu echter hun diensten aan spammers. Die zoeken daarom hun toevlucht bij gewetenloze internetbedrijven of aanbieders in afgelegen landen.
Ralsky pochte over zijn inkomsten uit de commissies: duizenden dollars per week, aldus het maandblad. “Kort daarop verhuisde Ralsky naar een huis van 740,000 dollar in een buitenwijk van Detroit. Hier begon hij een nieuw bedrijf in de kelder, dat al snel tienduizenden mailtjes per uur verzond via servers in Dallas, Canada, China, Rusland en India.”
Ralsky werd in 2001 aangeklaagd door internetbedrijf Verizon. Bij gebrek aan goede anti-spamwetgeving schikte Verizon afgelopen oktober. En Ralsky? Hij staat bovenaan Spamhaus’ top tien van spammers (Zie tabel).
Net als Ralsky maken spammers zoveel mogelijk gebruik van de mailservers van anderen. Deze zogenoemde ‘open relays’ zijn vaak misbruikte mailservers van andere internetters, maar spammers kraken daartoe ook wel eens routers bij isp’s.
Zo’n kwakkelende mailserver stuurt mail van een ander internetdomein door naar derden: de mailserver Computable.nl accepteert dan bijvoorbeeld mailtjes, afkomstig van alan@ralsky.usa en bestemd voor een reeks andere domeinen dan Computable.nl.
Spammers deinzen er niet voor terug om in computers in te breken, om deze in te richten als mailserver. Net als verscheidene versies van Sobiq, lijkt ook de nieuwste Microsoft-worm, Mydoom, waarvan ook al meerdere varianten rondwaren, speciaal voor dit doel te zijn gemaakt.
De kwaliteit van de code van de Mydoom-wormen verontrust de deskundigen. Het ontwerpen van virussen en wormen is totnogtoe een tijdverdrijf voor gestoorde computeraars en onnozele halzen, die met kant-en-klare viruspakketten experimenteren. Mydoom lijkt doelbewust ontworpen. Wanneer professionele hackers ervoor betaald krijgen, worden de wormen en virussen steeds geslepener.
Slecht geconfigureerde mailservers of gehackte clients zullen er wel altijd blijven. Een voordeel is, dat dit een bloeiende handel oplevert voor spam-filters. Spambestrijdingsmiddelen zijn er in veel verschijningsvormen; van volledig geautomatiseerd tot een systeem waarbij mail-ontvangers elkaar helpen door te stemmen over de mail die zij ontvangen.
Anti-spamsoftware heeft één eigenschap gemeen; zij werkt allemaal met regeltjes. Een deel van de anti-spamprogramma’s is voorzien van regels, bij andere pakketten moeten die regels zelf gemaakt worden. Voor beide geldt: hoe beter de regels, hoe meer spam tegengehouden wordt.
De meestgebruikte filtermethode binnen bedrijven lijkt die gebaseerd op blacklists.. Dat zijn lijsten van internet-adressen waarachter spammers schuilen. De lijsten hebben één zwakke plek: spammers veranderen snel van ip-adres en dat maakt het bijhouden van blacklists erg bewerkelijk. Zo’n lijst blokkeert dan gekraakte mailservers, inclusief de reguliere mail. Om dat laatste te voorkomen heeft Spamhaus, dat zo’n blacklist bijhoudt, een apart adres ingesteld waar ten onrechte geblokkeerde domeinen hun beklag kunnen doen.
Het Nederlandse tijdschrift Infosecurity meldt in een recensie van spamsoftware in december zelf het voorbeeld van Osirusoft, ook een door vrijwilligers bijgehouden blacklist. Deze hield er onverwacht mee op, maar liet wel een verkeerd werkende service op het net achter. Als gevolg hiervan weigerden wereldwijd servers die van Osirusoft gebruik maakten, bijna alle mail.
De producenten van spam-bestrijdingssoftware beloven vaak meer dan ze waar kunnen maken. Webzine Networkworldfusion publiceerde afgelopen september een test van zestien leveranciers. Zeven daarvan voldeden aan de onderzoekseisen en merkten minder dan 1 procent reguliere mail ten onrechte aan als spam. Een tweede grens, de hoeveelheid spam die moest worden tegengehouden, werd gesteld op 80 procent. Daarin slaagden ook zeven leveranciers. Slechts vier producenten voldeden aan beide eisen; Cloudmark, Postini, Mailfrontier en Tumbleweed.
In deze test kwamen niet de bekende grote namen voor als Etrust, van softwaregigant Computer Associates (CA), Spamkiller van antivirussoftwarefabrikant Mcafee. Ook de methodieken die Microsofts portaalsite MSN gebruikt werden niet besproken. Dat is opmerkelijk, want dit bedrijf begon in 1998 als een van de eerste met zelflerende of Bayesiaanse filters. Het is deze methode waar de meeste spam-bestrijders nu hun hoop op vestigen.

Rich! en Age1ng

Een Bayes-spamfilter bekijkt mailbussen vol spam en mailbussen met niet-spam. Het programma onthoudt dan de onderscheidende karakteristieken, en drukt die uit in getallen. Naarmate een woord of tekenreeks (door de spambestrijders ’tokens’ genaamd) de 1 nadert, des te zwaarder het als spam wordt aangemerkt.
Het woordt ‘largest’ werd keer op keer aangetroffen in mail die ik klassificeerde als spam; het krijgt van Spamassassin een 10 voor spam. Het komt echter ook veel voor in mijn gewone mail; het krijgt een 9 voor non-spam (spambestrijders noemen dat ‘ham’). Woorden die door spammers expres verkeerd gespeld worden om filters te omzeilen, bijvoorbeeld ‘onilne’, zijn sneller verdacht; ze krijgen een hogere spam-waarde.
Er worden verschillende formules toegepast om te bepalen of een mailtje spam of ham is. De formules geven ieder woord een waarde; Spamassassin telt die bij elkaar op en mailtjes die meer dan 5 punten halen, worden hier beschouwd als spam.
Voor spammers is het weer een sport om manieren te vinden om Bayes-filters te omzeilen. Een van de mailtjes bevat bijvoorbeeld het woord ‘pounds’. Dat telt zwaar mee als spam, toch komt het door de test: de ongewenste reclame gaat vergezeld van een aantal zinen als “And who knows what benefits to humanity may result? One week from to-day, at this hour, I will again appear to you.” Die tellen blijkbaar zwaarder mee als ham.
Een tweede door het filter niet herkend spam-bericht bevat onder meer het woord ‘Eksculslve’. Dat is nog nooit gezien door mijn Bayes-filter. Ik zet beide mailtjes apart, zodat ik ze later aan het filter kan voeren.
Paul Graham, een veel geciteerde spam-bestrijder, denkt dat met Bayesiaanse filters spam is te stoppen. Niet alleen vanwege de analitische benadering maar vooral omdat voor ieder gebruiker het filter anders werkt. Tezamen vormen de filters een net dat massaal en ongericht spammen niet langer zinvol maakt.
Het echte voordeel van deze filters is dat ze allemaal verschillend zijn, betoogt hij. Een spammer kan nu nog zelf testen of een spam-bericht door een ‘desktop-filter’ heen komt. Gebruikt iedereen (andere) Bayes-filters, dan is dit niet langer voldoende. De spammer zal iedere aanpassing van het spam-bericht moeten testen, om te zien of het al die filter passeert. “Dat is als het programmeren in een taal zonder programmeertoegang (interactive toplevel). Dat wens ik niemand toe.”
Dat breekpunt is helaas nog niet bereikt. Kortom, van spam zijn we nog niet af.< BR>