Als een computer kon zien, wat zou hij doen? Computer vision speelt een steeds belangrijkere rol binnen de it. De toekomst van computer vision gaat verder dan het aansluiten van een camera op een computer om daarmee een auto, appel of persoon te identificeren.
Ik sprak laatst mijn collega Florent Perronnin, die al lange tijd onderzoek doet naar computer vision. Hij vertelde over een aantal belangrijke en interessante trends, die ik graag via deze weg met jullie deel.
Het is één ding dat ons brein een onvoorstelbaar ingewikkeld systeem heeft, dat het nu ook lukt om computers te laten functioneren als onze hersenen is bijna onwerkelijk. Al 25 jaar lang wordt er onderzoek gedaan naar neurale netwerken, de nabootsing van het leerproces dat zich in onze hersenen afspeelt. Deze techniek is de afgelopen decennia ontwikkeld met behulp van kunstmatige intelligentie, maar heeft tot nu toe nog weinig opgeleverd.
Dankzij verbeterde rekenkracht van computers en het overschot aan beeldmateriaal is daar een verandering in gekomen. Bekende beelden worden vergeleken met onbekende beelden, waardoor eenvoudig beeldanalyses en gedragsanalyses gemaakt kunnen worden. Zo wordt het voor de computer eenvoudiger om onderscheid te maken tussen een auto en een vrachtwagen. Neurale netwerken hebben dus massaal beeldmateriaal nodig om dit onderscheid te kunnen maken en de rekenkracht te kunnen verbeteren. Iets wat in deze tijd geen enkel probleem is.
Even taggen op Facebook
Een andere belangrijke trend is de toenemende aandacht voor beeld en video binnen social media. Wanneer je een foto op Facebook plaatst, wordt nu met behulp van computer vision een suggestie gedaan voor de identificatie van de afgebeelde persoon. Het automatisch taggen maakt het voor mensen toegankelijker en eenvoudiger om beelden van data te voorzien.
Voorheen fungeerden deze afgebeelde personen als een soort ongeïdentificeerde black box. De informatie bestond wel, maar kon nog niet in kaart worden gebracht. Door middel van eerder getagde foto’s heeft computer vision beelden kunnen analyseren en zo ontstaat het sneeuwbaleffect. Hoe meer beelden voorzien zijn van data, hoe eenvoudiger het wordt om nieuwe beelden te voorzien van data. Door deze toename is er een flinke voorruitgang geboekt in het maken van beeldanalyses en gedragsanalyses. En dat is niet gek, als je bedenkt dat ruim 40 procent van alle pixels op YouTube corresponderen met mensen.
Van vergrootglas naar telescoop
Tien jaar geleden was de betrouwbaarheid van computer vision beperkt. Vandaag de dag is het mogelijk om duizenden soorten items betrouwbaar te analyseren. Dus het onderscheid tussen een auto en een vrachtwagen is verplaatst naar het onderscheid tussen een Ford Ka en een Ford Fiesta. Deze resultaten maken het mogelijk om een reeks van toepassingen te creëren die bijdragen aan het maatschappelijk belang.
Een leuk voorbeeld is een recent ontwikkelde technologie die met behulp van beeldherkenning het smartphonegebruik in het verkeer terugdringt. Een camerasysteem signaleert of de bestuurder zijn aandacht gevestigd heeft op het verkeer of op zijn telefoon. Computer vision projecten als deze bevorderen de verkeersveiligheid – en dat is slechts één van de vele mogelijkheden.
Ter informatie, de beeldherkenning van mensen die facebook gebruikt is naar Europees recht illegaal.
Om te stellen dat neurale netwerken ” tot nu toe weinig hebben opgeleverd” is wat kort door de bocht. Zie bijvoorbeeld deze lijst: http://www.alyuda.com/products/forecaster/neural-network-applications.htm
Het genoemde voorbeeld (smartphonegebruik in de auto) is een voorbeeld van een restrictieve applicatie die niet erg populair zal zijn. iets soortgelijks is bijvoorbeeld de invoering van alcoholdetectiesystemen in auto’s.
Hoewel deze toepassingen ongetwijfeld de verkeersveiligheid bevorderen, ziet het ernaar uit dat het menselijk gedrag steeds meer gereguleerd gaat worden door de computer. Dit terwijl die computer juist steeds meer zelfstandigheid gaat vertonen door beslissingen te nemen die wij als mensen eigenlijk zelf zouden moeten nemen.