Mediamining: wondermiddel of fata morgana?

Metadata ontmijnen mediaterrein

Hoe meer digitale informatie, hoe meer de noodzaak om de gegevens te structureren. Zonder een goede beschrijving in de vorm van metadata of tags kan informatie echter niet gestructureerd worden, waardoor ze ondoorzoekbaar blijft. Dat het noodzakelijk is om content zorgvuldig te beschrijven wordt tegenwoordig wel algemeen ingezien, toch is het handmatig toevoegen van metadata vaak de sluitpost in het hele proces. Maar er is hoop. Als de belofte van mediamining wordt waargemaakt, kunnen metadata in de toekomst (in zekere mate) automatisch gegenereerd worden uit multimediale content.

Het menselijke brein is in staat om semantisch te denken, of betekenis te geven aan wat we zien en horen door die informatie in een context te plaatsen. Dat kunnen computers nu niet. Google bijvoorbeeld laat zich ‘domweg’ leiden door trefwoorden. Zo komt het dat Google Ads een advertentie van een zomerhuisje in Tholen laat zien bij in een nieuwsbericht over een auto-ongeluk met een fatale afloop waarin diezelfde plaatsnaam voorkomt. Zo’n combinatie maakt een mens niet, een computer wel.

Het semantische web gaat daar een einde aan maken door software in te zetten die informatie op een menselijke manier interpreteert. Dat kan via ‘machine learning’. Audiovisuele bestanden worden daarbij met behulp van algoritmes geïnterpreteerd en gerelateerd. Vervolgens kunnen programma’s complexe patronen en combinaties van patronen leren herkennen en combineren. Door zoekmachines de vele combinaties te leren die nodig zijn voor contextualisering, kan software menselijke vaardigheden, zoals interpretatie, gedeeltelijk overnemen of in ieder geval benaderen. Machine learning staat daarom hoog op het verlanglijstje van de Googles van deze wereld.

Voor de mediaprofessional is het belang van mediamining, of het snel doorzoeken van ongestructureerde informatie, moeilijk te overschatten. Cruciaal daarbij is een automatische generatie van metadata door middel van machine learning en multimodale analyse van beeld, geluid en tekst. Op die manier krijgt de gebruiker de beschikking over een uitgebreide database waarin makkelijk en snel verbanden zijn te leggen tussen gerelateerde feiten.

Bij mediamining worden tegenwoordig verschillende technieken gebruikt, een beknopt overzicht.
Het bestandsformaat MPEG-7 bevat componenten die toelaten om de media te doorzoeken, indexeren, filteren en is daarom populair bij mediaminingprojecten. Met behulp van zogenaamde descriptors wordt uit de bestanden informatie gehaald over ondermeer kleurstelling, camerabewegingen, 3D objectherkenning en melodieën. Op basis van een vooraf genomen sample van bijvoorbeeld een logo, kan dat logo automatisch gedetecteerd worden in een videofragment, zelfs als het daarbij gekanteld wordt.

Tegenwoordig erg in trek in spraakherkenningssoftware is transcriptie.  Bij deze zoekmethode wordt het menselijke stemgeluid eerst omgezet in geschreven tekst die dan aan de hand van trefwoorden of taalmodellen doorzocht wordt. Deze Taalmodellen kunnen vervolgens zorgen voor het interpreteren van de tekst zodat bijvoorbeeld het woorden ‘aanslag’ in de juiste context wordt geplaatst: ‘belastingaanslag’ of ‘bomaanslag’.

Behalve spraak kunnen door een sample te analyseren ook stemmen, en daarmee dus personen herkend worden. Net als bij vingerafdrukken geeft deze analyse een unieke identificatie van de stem. De techniek wordt tegenwoordig ook gebruikt voor ondermeer forensische doelen zoals het identificeren van stemmen in afgetapte telefoongesprekken.

Een andere techniek is fingerprinting. Fingerprints worden gemaakt door het analyseren van kleur, helderheid en beweging in het beeld, en bij geluid door analyse van frequentie en versterkingseigenschappen van het geluidsignaal. Deze gegevens worden dan mathematisch in kaart gebracht en in een database opgeslagen zodat ze voor vergelijking beschikbaar zijn. Fingerprint zijn ongevoelig voor degradatie door bijvoorbeeld cascadering en immuun voor conversie, compressie of bitratereductie.

Met behulp van gezichtsherkenning kunnen mensen in videobeelden herkend worden. De gezichten moeten dan wel recht voor de camera staan om zo de unieke lijnen tussen ogen en neus te kunnen meten en analyseren. De belichting van het gezicht speelt daarbij vaak parten. Met 3D-technieken wordt nu geprobeerd om de negatieve belichtingseffecten bij het herkennen van gezichten te verminderen. Door de vorm van het gezicht in een 3D model op te nemen kan ook het profiel verkregen worden en bekomt men meer betrouwbare informatie.

Een betrekkelijk nieuwe techniek is skin-texture analyse, waarmee de rimpels en andere onregelmatigheden in het gezicht gescand worden. De effectiviteit van gezichtsherkenning wordt daarmee met 20 tot 25% vergroot.

Optical Character Recognition (OCR) is net als spraakherkenning een techniek die al langer doorgedrongen is tot de dagelijkse praktijk. Vaak zit bij aankoop van papierscanners de OCR-software er gratis bij. Met behulp van deze software kan een vel papier met daarop gedrukte tekst omgezet worden naar een gewoon tekstbestand. Tekst in video kan inmiddels ook op die manier herkend worden. Als er namen of ondertitels in beeld verschijnen, dan kunnen die softwarematig worden omgezet naar tekst, gerelateerd aan de tijdlijn. In de praktijk een interessante bron van metadata. Door aan te geven in welk gedeelte van het scherm de tekst verschijnt, hoeft niet het hele beeld gescand te worden. Dat vergroot uiteraard de effectiviteit.

Als de automatische classificatie vervolgens gecombineerd kan worden met aanvullende metadata, ontstaan echte ‘rich media’. Vaak zijn die metadata al voorhanden of kunnen standaard waarden gebruikt worden. In de header van veel mediabestanden worden namelijk al heel wat metadata meegestuurd: video- en audioformaat, de duur, cascaderinginformatie, datum en tijdstip van opname. Maar ook tijdens het productieproces worden gegevens toegevoegd die prima als metadata kunnen dienen. Denk daarbij aan autocueteksten, streamers en dergelijke, maar ook begeleidende bestanden als ondertitelbestanden (STL) en EPG-gegevens. De combinatie mediamining en metadata-aggregatie zorgt voor rijk beschreven content met een minimum aan handmatig ingevoerde gegevens.  

Tegenwoordig lopen verschillende Europese initiatieven op gebied van mediamining. Zo is in Nederland TNO, met name TNO-ICT, al geruime tijd bezig met de ontwikkeling van technologie en is er een Europese project, zoals het Platform for searcH of Audiovisual Resources across Online Spaces, kortweg PHAROS. Het project wordt gecofinancierd door de Europese Commissie en gedragen door leden, bedrijven en instanties, uit verschillende Europese landen.

Terwijl wetenschappers bezig zijn met de verfijning van de technologie, bieden verschillende bedrijven al rijpe mediamining producten aan.
Een van de meest bekende is het Amerikaanse bedrijf Autonomy, gespecialiseerd in Meaning Based Computing, meer bepaald analyse van ongestructureerde data als digitale audio, afbeeldingen en video. Niet enkel kunnen zij de ingest van data organiseren via video- en audiologging en webspiders, ook kunnen zij betekenis geven aan deze data door slimme indexeringstechnieken en contextualisering. Via data-analyse en hyperlinking worden gegevens vervolgens geclusterd in logische groepen en op basis van doelgroepenprofielen aan de juiste geadresseerden beschikbaar gesteld. De gebruiker krijgt de informatie op maat aangeboden. Autonomy gebruikt technieken als Scene Detection, Speaker Identification en Sentiment Analysis om de data te genereren. Het bedrijf levert behalve mediamanagement tools voor mediabedrijven, ook speciale oplossingen aan de beveiliging- en surveillancebranche.

Een andere partij die mediamining producten aanbiedt is Civolution, voorheen Philips Content Identification, maar nu een autonoom bedrijf. Met de drie productlijnen Nextguard, Nexttracker en Nexttrigger is het mogelijk audiovisueel materiaal te ontsluiten en relaties te leggen tussen de geanalyseerde data. Hun techniek wordt ondermeer gebruikt voor het opsporen van piraterij op het web. Door de content eerst te ‘fingerprinten’ kan op het web worden gezocht naar kopieën van de content. Geïnstalleerd op de settop box kan de techniek ook gebruikt worden voor audience measurement. Door de fingerprints in de geconsumeerde content te vergelijken met gegevens in de database van de omroep, kan exact gemeten worden waar de kijker naar kijkt. Met die technologie kan bovendien commerciële informatie met de tv-programma’s gematched worden.

De van origine Nederlandse bedrijven EventIS (tegenwoordig deel van SeaChange International) en Aprico (dochter van Philips) zitten op een gelijkaardig spoor. Tv-kijken persoonlijk maken op basis van metadata is hun doelstelling. Met behulp van EPG, viewer profiles, preferences, recommendation en het analyseren van kijkgedrag kunnen consumenten geattendeerd worden op voor hun relevante content en op welk platform die wordt aangeboden: lineaire tv, VOD services,  pc of mobile. Kijkers kunnen ook hun voorkeuren met anderen delen.

Met al deze technieken is uiteindelijk veel informatie uit de ongestructureerde mediadata te halen, maar alle technieken hebben een ding gemeen, en dat is dat ze niet 100% accuraat zijn, verre van zelfs. Logodetectie werkt alleen goed als het logo heel duidelijk wordt weergegeven, merkherkenning is nog moeilijker omdat bedrijven vaak een veelvoud aan merkuitingen gebruiken. Gezichtsherkenning levert pas goede resultaten als de persoon lang genoeg en vooral recht in de camera kijkt. OCR-en is nog helemaal niet accuraat en kan alleen enigszins relevante informatie opleveren als tevoren bekend is in welk gedeelte van het beeld de tekst verschijnt. Transcriptie en stemherkenning zijn technieken die het verst ontwikkeld zijn. Komt daar nog bij dat technieken als fingerprinting, logo-, merk-, gezicht- en stemherkenning werken met samples die eerst in een database moeten worden opgeslagen. Met andere woorden, vooraf moet men al weten waarnaar gezocht gaat worden; alleen voor video-OCR en transcriptie geldt dat niet.

Van mediamining mogen dus geen wonderen verwacht worden, maar in toepassingen waarin classificatie van content noodzakelijk is om doelgroependistributie te kunnen automatiseren, komt de techniek wel als geroepen.
Is voor de mediaprofessional mediamining daarom (nog) niet aan de orde? Toch wel. De combinatie van de verschillende technieken zorgt ervoor dat met behulp van mediamining veel complementaire informatie uit de bestanden geëxtraheerd kan worden en vervolgens gecombineerd. Maar nooit meer handmatig metadata moeten invoeren is een fata morgana, dus zal wel iemand nog steeds moeten intikken: “pan van links naar rechts van voorgevel van gerechtsgebouw bij stralend zomerweer”. De optelsom van verschillende mediaminingtechnieken kan echter een bevredigend resultaat opleveren bij geautomatiseerde classificatie.

www.pharos-audiovisual-search.eu, www.civolution.com, www.eventis.nl, www.aprico.tv, www.autonomy.com<

Lucas Vroemen  22-10-2009

Dit artikel verscheen in het novembernummer van Masterfiles

Comments are closed.