Na gegevens, communicatie, spraak en muziek zijn nu beeld en video aan de beurt voor digitalisering. In rap tempo gaan elektronische chips dit ‘laatste analoge bolwerk’ slechten. Hierdoor zullen de telecommunicatie-, de computer- en de audiovisuele wereld definitief samenvallen. Computermensen moeten zich nu ook in beeldcompressie verdiepen.
Voorbeelden van digitale beeldmanipulatie zijn gemakkelijk te vinden. Februari dit jaar bood het Britse Ford zijn verontschuldigingen aan voor het feit dat vier gekleurde medewerkers in een advertentie voorzien waren van blanke gezichten. Al vele jaren is de intro van Karel de Graafs praatprogramma een schitterend voorbeeld van morphing. De Disney-film Toy Story is in z’n geheel op ruim honderd computers gemaakt. Digitalisering van het beeld heeft al deze manipulaties mogelijk gemaakt. Veel daarvan kan men nu al zelf doen op een PC en straks wellicht ook op de televisie.
In de jaren vijftig speelde de vraag of computers het best analoog of digitaal zouden kunnen werken. In de jaren zestig is de keus definitief op digitaal gevallen, vanwege de opkomst van transistoren die steeds verder te integreren waren in chips. Niet alleen de verwerking van informatie en de besturing van apparaten is digitaal geworden, maar ook het beeld. De digitale Photo-CD van Kodak biedt een universele indeling voor de grafische industrie die op elke CD-Rom-speler te lezen is. Hoewel het commerciële succes nog uitblijft, komen er steeds meer digitale camera’s en (binnenkort) camcorders. Video-vergaderen doen we digitaal via Isdn (Integrated Services Digital Network). Nethold start binnenkort met digitale televisie-uitzendingen.
Digitalisering klinkt eenvoudig omdat de verwerking van digitale gegevens inmiddels gangbaar is: allemaal bits, die eenvoudig op de een of andere manier te manipuleren zijn. Vergeleken met tekst of getallen gaat het bij digitale beelden echter wel om heel veel bits. Een redelijk eenvoudig plaatje op een PC-beeldscherm met een resolutie van 1024×768 pixels en een relatief simpele kleurcodering (3×8 bits; rgb-kleurcodering – rood, groen, blauw) vergt bijvoorbeeld al 18.874.368 bits (2,4 Mbyte). De hoogste beeldresolutie op een Photo-CD bedraagt 2048×3072 (circa 18 Mbyte). Zonder compressie zouden zulke plaatjes niet alleen veel opslagcapaciteit vereisen, ook hun transmissie zou veel bandbreedte en/of tijd vragen. Iedereen die op het World Wide Web surft, zal zelfs geneigd zijn de ontvangst van (veel kleinere) plaatjes uit te zetten, omdat het zo lang duurt voor ze ‘binnen’ zijn.
Slimme codering
Een oeroude, maar nog steeds populaire compressiemethode is de Huffman-codering, ook wel ‘variabele lengte’-codering genoemd. Hierbij worden de meest voorkomende tekens of onderdelen met een minimaal aantal bits gecodeerd, en de minst voorkomende met een groter aantal bits. Een hiermee gecodeerd bericht of beeld zal dan een minimum aantal bits bevatten. De codes staan in een tabel, zodat berichten in real-time te coderen en te decoderen zijn. De behaalde compressie hangt af van de verdeling van de tekens of onderdelen.
Nyquist heeft in de informatietheorie het criterium gesteld waaraan het aantal bemonsteringen (samples) van een analoog signaal moet voldoen om het volledig te kunnen reconstrueren: tenminste twee keer de bandbreedte van het analoge signaal. Mede omdat elke bemonstering een aantal bits vraagt, zou digitalisering een forse uitbreiding van de bandbreedte betekenen. Door een slimme codering te kiezen, valt dit echter te vermijden. Het klassieke voorbeeld van Nyquist is de digitalisering van de overdracht van spraak in telefonie: de analoge bandbreedte bedraagt circa 3 kHz en de digitale 64 kHz – het twintigvoudige. Door nieuwe modulatie-technieken kan men tegenwoordig via de ruisarme analoge telefoonlijnen met een bandbreedte van 3 kHz tot maximaal 28,8 kbit/s overbrengen. Analoge televisie vergt een bandbreedte van circa 7-8 MHz per kanaal. Directe digitalisering zou de benodigde snelheid verhogen tot 166 Mbit/s, waarvoor een bandbreedte van meer dan 40 MHz nodig is.
Toch zal digitale televisie nog dit jaar op kleine schaal worden ingevoerd en binnen enkele jaren op grote schaal. De voordelen van de digitalisering van het beeld zijn groot: vrijwel storingvrije overdracht en de mogelijkheid van compressie in combinatie met elektronische chips. Door het gebruik van ingewikkelde compressie- en decompressietechnieken bijvoorbeeld, valt de 40 MHz bandbreedte te reduceren tot circa 1 MHz, waardoor er ongeveer zeven digitale kanalen passen binnen de bandbreedte van één analoog kanaal. Net als in computers verrichten digitale chips ook hier het grote wonder.
Universele definitie
Een bekend voorbeeld van digitale beelden is een documentair informatiesysteem (dis) waarin de formulieren van een bedrijf optisch gescand en als zwart/wit beeld opgeslagen worden. Enkele gegevens worden ingetoetst of door middel van ocr (optical character recognition) herkend, maar dit betreft uitsluitend gegevens voor indexering, een klantnummer en andere informatie die traditioneel verwerkt wordt. Op de dis-beurs in februari vertelde J. D. Moons van Kodak dat iedereen voor compressie de voor ‘groep 4’-faxen (via Isdn) ontwikkelde Ccitt-4-norm hanteert (Comité Consultative Internationale de Télégraphe et Téléphonique, tegenwoordig Itu). Hierbij vindt een twee-dimensionale compressie plaats door een horizontale bitstring te vergelijken met de volgende en alleen de verschillen te comprimeren volgens Huffman. Een pagina op A4-formaat zonder compressie vraagt een opslagruimte van circa 1 Mbyte; na compressie blijft slechts 50 kbyte over. De compressiefactor van dit relatief eenvoudige compressiesysteem ligt dus rond de twintig – een forse vermindering in zowel opslagruimte als transmissietijd.
Voor digitale camera’s en de Photo-CD heeft Kodak ongeveer vijftien jaar geleden (voordat Jpeg, Joint Photographers Expert Group, tot stand kwam) het zogenaamde YCC-proces ontwikkeld voor kleurenfoto’s. De rgb-waarden van een scanner worden hierbij geconverteerd naar luminantie (helderheid, Y of grijswaarden) en chrominantie (kleur, C) – bekende termen uit de televisiewereld, waar men spreekt van Y/C-signalen. Volgens A. Breure, digital imaging-specialist bij Kodak Nederland, ontwikkelde Kodak dit systeem om een universele definitie van kleurenbeelden te krijgen, die afkomstig kunnen zijn van een negatief, diapositief of welke andere bron ook. In YCC gecodeerde beelden zijn eenvoudiger te manipuleren en te comprimeren dan die in rgb gecodeerd zijn. De omzetting van rgb naar YCC is eenvoudig: de groene waarden vormen het Y-signaal, de rode en blauwe de beide C-signalen. Omdat de laatste twee weinig informatie bevatten, kunnen de waarden om het andere pixel worden weggelaten (chroma subsampling) – bij rood in de horizontale richting en bij blauw in de verticale. Bij decodering zijn deze waarden in elk pixel door interpolatie vrijwel zonder verlies te berekenen.
Elektronische pasfoto’s
Het basisbeeld op een Photo-CD, 16Base geheten, heeft een resolutie van 2048×3072 pixels van 3 byte elk, 1 byte per (rgb-)kleur – dat betekent circa 18 Mbyte per beeld. De YCC-codering brengt dit terug naar 6+3+3 = 12 Mbyte. Huffman-codering en een hiërarchische opbouw van de beeldinformatie in de zes verschillende resoluties comprimeren de 12 Mbyte tot 4 à 6 Mbyte, afhankelijk van de beeldinhoud. Het hiërarchische systeem is zodanig opgezet dat het eenvoudig is om beelden met een bepaalde resolutie te reconstrueren. Deze werkwijze maakt het mogelijk om circa honderd beelden op te slaan op een Photo-CD van 600 Mbyte. Deze beelden zijn geschikt voor professioneel drukwerk tot A4-formaat of gewone afdrukken tot A3. (De Photo-CD Pro gaat tot A3 en A2 met 64Base beelden met een resolutie van 4096×6144.)
In de digitale fotocamera’s van Kodak wordt de YCC-codering direct toegepast door de fotocellen in de matrix slechts voor één van de drie rgb-kleuren gevoelig te maken. De beeldresolutie is afhankelijk van het model. De kwaliteit is echter niet te vergelijken met die van de Photo-CD, omdat de resolutie lager is. Het is mogelijk om de beelden intern op te slaan op een PC Card (flash-geheugen of een harde schijf) en later via een kabel uit te lezen naar een PC. Een YCC-gecodeerd fotobeeld vraagt circa 0,5 Mbyte. In de PC is de YCC-codering om te zetten naar vrijwel elk willekeurig beeldformaat; Tiff, Pict, PCX, BMP enzovoort.
Naast andere systemen heeft Kodak een revolutionair systeem voor elektronische pasfoto’s op magneetkaarten of smartcards ontwikkeld: het Kodak Image Verification System. Hierbij wordt een pasfoto (zwart/wit of in kleur) gecodeerd in slechts 50 byte (400 bits). Helaas is weinig bekend over de hiervoor ontwikkelde algoritme. Als toepassing denkt men aan controle bij betalingen; stemt de drager van de kaart overeen met de foto? Na invoering wordt de elektronische pasfoto getoond aan de kassamedewerker, die de vergelijking visueel moet maken. Dit systeem wordt in samenwerking met Citicorp en IBM ontwikkeld. Siemens heeft aangekondigd dat het werkt aan apparatuur voor de automatische herkenning van gezichten – dit zou op termijn de Pin-code overbodig kunnen maken.
De Jpeg-norm
Een andere populaire compressietechniek voor stilstaande beelden is Jpeg (een norm ontwikkeld door de Joint Photographers Expert Group), die de basis vormt van veel andere compressietechnieken, waaronder Mpeg (Moving Pictures Expert Group). K. Rijkse, KPN Research: "Jpeg werkt met vierkanten van 8×8 pixels waarop een zogenaamde Discrete Cosine Transformation (DCT) wordt uitgevoerd (zie figuur 1).
Dit is een wiskundige bewerking (vergelijkbaar met de Fast Fourier Transform) die de beeldinformatie van de 64 pixels transformeert naar een nieuwe representatie van 64 punten. Hierdoor wordt de geometrische beeldinformatie omgezet naar golfvormen, die eenvoudiger te bewerken zijn. De lage frequenties (globale beeldinformatie) worden hierdoor linksboven in het vierkant geconcentreerd en de hoge (details) rechtsonder. Deze matrix wordt van linksboven naar rechtsonder uitgelezen, waardoor het eenvoudig is de hogere frequenties weg te laten. Door middel van een 8×8 kwantiseringstabel valt aan de verscheidene frequenties door vermenigvuldiging eenvoudig elk gewenst belang (van 1 tot 0,01) te geven. Het resultaat wordt vervolgens via Huffman gecodeerd, waarbij het mogelijk is de ‘lege’ punten weg te laten. Door de verandering van de kwantiseringstabel kan men eenvoudig bepalen hoeveel men wil comprimeren. Afhankelijk van de beeldinhoud ligt de compressiefactor meestal rond tien tot dertig." (De compressiefactor van het Kodak Image Pac systeem is lager, maar het systeem werkt praktisch verliesvrij.)
Volgens Rijkse is voor een blok met 8×8 pixels gekozen vanwege de daarmee bereikte compressie. Rijkse stelt verder dat de Jpeg-norm een groot scala aan technieken omvat, waarvan meestal slechts een klein deel wordt gebruikt.
Interactief manipuleren
Voor de compressie van bewegende beelden gebruikt vrijwel iedereen Mpeg. Hierbij wordt dezelfde basistechniek gebruikt die de figuur weergeeft. R. Koenen van KPN Research is het hoofd van de Nederlandse delegatie voor de normalisatie van Mpeg. Hij legt uit wat de verschillen zijn tussen Mpeg1, Mpeg2 en Mpeg4. "Mpeg1 was destijds bedoeld voor een beperkt aantal pixels, voldoende voor ongeveer een kwart televisiebeeld. Dat is inmiddels uitgebreid, waardoor bijvoorbeeld CD-I beeldvullend kan werken middels Mpeg1. In Mpeg2 is een aantal nieuwe voorzieningen aangebracht. Overigens zijn de verschillen tussen Mpeg1 en Mpeg2 niet zo groot; beide kunnen werken met bewegingscompensatie, wat de compressie vergroot. Mpeg4 betekent een radicaal nieuwe aanpak, waarbij objecten in het bewegende beeld apart worden behandeld en de kijker deze interactief kan manipuleren. Dat duurt echter nog wel even. Het normvoorstel moet november 1997 gereed zijn voor publikatie; de norm een jaar later."
Hoe werkt Mpeg in grote lijnen? De compressie moet aanzienlijk zijn, want een Video-CD van 600 Mbyte bevat ongeveer een uur televisie, inclusief audio. Koenen: "Dat klopt, de compressie is groot. Bij Mpeg worden opeenvolgende televisiebeelden met elkaar vergeleken en wordt alleen het verschil overgestuurd. De informatie-inhoud van dat verschil is heel klein en vraagt dus weinig bits. In feite wordt een voorspelling gemaakt van één beeldje en die raming wordt afgetrokken van het origineel; alleen het verschil wordt overgezonden. De compressie van dat verschil vindt plaats op dezelfde manier als bij Jpeg, voordat het verzonden wordt. Je moet beginnen met een volledig beeld en af en toe weer eens een zogenaamd intrabeeld invoegen, anders accumuleren de fouten. Mpeg bevat ook nog een vorm van bewegingscompensatie middels een vectorenveld, waarmee snelle beeldveranderingen beter te coderen zijn."
Rijkse meent dat zowel de Jpeg- als de Mpeg-norm zeer veel mogelijkheden tot beeldcodering bieden. Het zijn moderne normen die alleen de mogelijkheden voor decoderen specificeren. Het is de taak van de fabrikanten om nieuwe codeerfaciliteiten te ontwikkelen en zich zo te onderscheiden van de concurrentie. Van belang hierbij is uitsluitend dat het gecodeerde signaal te decoderen valt. De ene fabrikant kan daarom een veel beter presterend codeerapparaat bouwen dan een ander. Op deze manier houdt de norm nieuwe ontwikkelingen dus niet tegen. Overigens moet, naast de televisiebeelden, ook het audiosignaal gecodeerd worden; daarvoor bestaan diverse mogelijkheden.
Niet automatisch volmaakt
Koenen vertelt verder dat, afhankelijk van de gebruikte keuzemogelijkheden, Mpeg-compressie niet automatisch volmaakt is. Vooral de codering is nogal rekenintensief: het is niet ongebruikelijk dat de verwerking van een één uur durende film op een krachtige computer acht uur in beslag neemt. Het resultaat moet visueel gecontroleerd worden op zogenaamde artefacts, kunstmatige verschijningen in het beeld die te wijten zijn aan het gebruik van het 8×8 pixel-blokje, dat discontinuïteiten kan veroorzaken. Daar is dan gebruik van extra bits nodig, die op andere plaatsen kunnen worden weggelaten, zodat de gemiddelde signaalsnelheid constant blijft. Een elektronische buffer vangt de variatie in ogenblikkelijke snelheid op.
Tegelijk met deze ontwikkelingen in de televisiewereld zijn ook in de telecommunicatiewereld (vroeger Ccitt, nu Itu) systemen ontwikkeld voor videovergaderen. Rijkse, voorzitter van de werkgroep die de Itu-norm H.263 ontwikkelde: "Als onderdeel van de H.320 norm kwam eerst H.261 voor digitale beeldoverdracht via Isdn met snelheden van 64 tot 1920 kbit/s, waarbij de beeldkwaliteit sterk afhangt van de beschikbare snelheid. Vervolgens is een verbeterde H.263-norm ontwikkeld. Deze is tevens bruikbaar voor snelheden beneden 64 kbit/s, waardoor bewegende beelden nu ook via het analoge telefoonnetwerk te versturen zijn (met behulp van modems). Zowel H.261 als H.263 zijn netwerk-onafhankelijk; ze kunnen gebruikt worden over Isdn, Ethernet, ATM enzovoort. Beide normen werken met een eigen vorm van beeldcompressie. Als onderdeel van het samenvallen van de televisie-, de telecommunicatie- en de computerwereld is ten slotte H.262 ontwikkeld, die letterlijk gelijk is aan de Mpeg2-norm. Wellicht wordt de nieuwe H.264 straks gelijk aan de Mpeg4-norm."
Mpeg4 zal een revolutionaire nieuwe aanpak inhouden. Koenen: "Mpeg4 zal veel verder gaan dan beeldcompressie alleen. Naast compressie zal het inspelen op twee belangrijke trends: interactiviteit en personalisatie. Interactiviteit betekent dat de kijker het beeld kan manipuleren; hij kan bepaalde details weglaten en andere naar voren halen. De personen en voorwerpen in het beeld zijn gecodeerd als objecten over te zenden. Hierbij moet alleen het object worden gecodeerd, niet het hele plaatje. Het is vergelijkbaar met een tekenprogramma waarmee in verschillende lagen objecten en kleuren worden gecreëerd die samengevoegd een totaalbeeld opleveren. Op die manier zijn objecten dus gemakkelijk in te voegen en weg te laten. Hetzelfde geldt overigens voor het geluid: men kan een reporter die in een studio zit plaatsen in een drukke winkelstraat of in de stille natuur. Alle gecodeerd meegestuurde mogelijkheden zijn bij de kijker thuis te manipuleren. Mpeg4 zal een soort van gereedschapskist specificeren die thuis te gebruiken is voor de interactie."
Herkenning van objecten
Werkt Mpeg4 nog steeds op basis van DCT en Jpeg? Koenen: "In ieder geval op basis van DCT. We hebben vorig jaar technologie-voorstellen gevraagd aan alle partijen. Uit de evaluatie van de antwoorden bleek dat er geen andere technologie bestaat die een wezenlijk voordeel biedt. Ik noem: wavelets (ook een vorm van Fourier-transformatie, maar met behulp van korte golfvormen) en vector-codering. Omdat er geen echte voordelen zijn, hebben we besloten om bij de vertrouwde DCT-techniek te blijven. Mpeg4 gebruikt wel een aantal basistechnieken van Jpeg, maar lang niet alle."
Wil men objecten apart coderen, dan is een zekere vorm van herkenning waarschijnlijk nodig. Het is nauwelijks voorstelbaar dat die objecten allemaal handmatig worden gecodeerd. Koenen: "Wij houden ons vooral bezig met de decodeerschakeling en hoe die werkt. H�e men objecten codeert, is eigenlijk niet onze zaak – al luisteren we natuurlijk heel goed naar hetgeen de verschillende fabrikanten graag willen dat we daarvoor specificeren. Je kunt hier bijna spreken van herkenning van voorwerpen in het beeld, hoewel dat nog allemaal niet uitgekristalliseerd is. Het duurt nog tot november 1998 voordat Mpeg4 officieel wordt, en het is te hopen dat de norm daarna nog vele jaren mee zal kunnen. Per slot van rekening komen er nog steeds uitbreidingen van Mpeg2. Zo zal het ook wel gaan met Mpeg4. In het kader van de herkenning van objecten moeten kunstmatige Vrml-beelden eenvoudig te coderen zijn, omdat het gebruik daarvan, bijvoorbeeld voor interacties, een grote vlucht zal nemen " (Virtual Reality Modelling Language, zie: http://vrml.wired.com/vrml.tech/vrmlspec.html/).
Wat komt er na Mpeg4? Koenen: "Spottend zeggen we wel Mpeg8, om in de binaire traditie te blijven. Dat wat Mpeg3 had moeten worden (digitale Hdtv, high definition televisie), is inmiddels in Mpeg2 opgenomen – vandaar dat Mpeg3 werd overgeslagen. Mpeg2 is ook nog niet af. Daarin worden nu nog driedimensionale stereo-televisiebeelden opgenomen, en voorzieningen voor interactieve diensten die straks nodig zijn. Voorlopig is er nog heel wat werk aan de Mpeg-winkel." Het Mpeg-normalisatiewerk vindt plaats in een gezamenlijke technische werkgroep van Iso (International Standardization Organization) en Itu: JTC1-SC29-WG11.
Revolutie in de huiskamer
Sony heeft als eerste een digitale camcorder en videorecorder uitgebracht. Bij de ontwikkeling van het SD-formaat (Standard Definition) hiervoor, werd samengewerkt met Panasonic, Philips en Thompson. Volgens M. Gielen van Sony Nederland werkt men hierbij niet met Mpeg, maar wel met DCT: "Omdat Mpeg alleen de verschillen tussen opeenvolgende beelden codeert, zou dat problemen opleveren bij de montage van video-sessies. Daarom codeert SD elk beeld afzonderlijk; dat geeft slecht een compressie met een factor 5 (Mpeg wel 30), maar dat is bij magneetbanden niet zo’n probleem." Digitale video voor de thuismarkt is zeer aantrekkelijk, omdat stukken video ‘eindeloos’ zijn te kopiëren zonder beeldverlies. Volgens Gielen is de SD-norm nu al door meer dan vijftig bedrijven geaccepteerd, en zullen enkele ondernemingen dit jaar al produkten leveren.
De tijd dat informatici de Huffman-codering leerden als dè optimale manier van compressie ligt inmiddels ver achter ons. Door het samenvallen van de telecommunicatie-, de televisie- en de computerwereld is behoefte ontstaan aan nieuwe compressietechnieken. Beelden, al dan niet met geluid, dringen snel door in alle computertoepassingen. Het nieuwe ‘elektronisch formulier’ zal niet alleen het papieren document met tekst bevatten, maar ook beelden en geluiden. Met de opkomst van elektronische beelden is het gebruik van grote compressie een bittere noodzaak geworden, ondanks de doorlopend toenemende capaciteit van de opslagmedia en de verbindingen.
Kabel- en satelliet-televisie zullen voor een wellicht nog grotere revolutie in de huiskamer zorgen. De wereld wordt er niet eenvoudiger op, maar in ieder geval wel beeldiger. Compressie (en foutcorrectie) zullen meestal via modules of insteekkaarten beschikbaar komen, zonder dat de gebruiker zich daarover het hoofd hoeft te breken. De winst in opslagcapaciteit, transmissietijd of vertragingstijd zal toepassing van elektronische beelden en multimedia op grote schaal mogelijk maken.
Hein van Steenis, freelance medewerker Computable