Onderzoeker ontwikkelt Google voor archeologen
In digitale archieven liggen ongelooflijk veel archeologische rapporten opgeslagen. Wie daar informatie in wil zoeken, moet dat vaak handmatig doen. En dat is echt monnikenwerk. Archeoloog Alex Brandsen heeft nu met deep learning, een vorm van kunstmatige intelligentie, een zoekmachine ontwikkeld die heel precies door alle data kan zoeken. Promotie op 15 februari.
Archeologen zijn vaak op zoek naar hele specifieke informatie in de enorme hoeveelheid data die er in archieven beschikbaar is. Maar de huidige zoekmachine kan alleen zoeken op wat algemene trefwoorden en titels van pdf’s. Zoals bijvoorbeeld ‘middeleeuwen’ en ‘aardewerk’. Brandsen: ‘Als je zoekt naar bijlen in de middeleeuwen, moet je nu dus alles over de middeleeuwen downloaden en handmatig doorzoeken.’
Grote hoeveelheid data
Archeologen produceren sinds het Verdrag van Valletta (1992) een enorme hoeveelheid rapporten. Het verdrag regelt de omgang met Europees archeologisch erfgoed. Het betekent dat als er ergens gaat worden gebouwd, eerst moet worden gecheckt of er archeologisch erfgoed in de bodem zit. Alleen al in Nederland worden hierdoor duizenden rapporten per jaar geschreven.
Deep learning
Met deep learning ontwikkelde Brandsen een slimme zoekmachine. Een soort Google voor archeologen. De promovendus trainde een taalmodel om woorden in de archeologische rapporten te herkennen. Daarbij was het belangrijk dat het model ook synoniemen herkent en onderscheid maakt tussen verschillende betekenissen van een woord. Brandsen: ‘Het woord ‘bijl’ kan slaan op een artefact waar je mee kunt hakken, maar het kan ook een achternaam zijn. Als je nu op het artefact bijl zoekt, vind je alleen dat en niet ook nog meneer Bijl.’ Daarnaast is het ook mogelijk om geografisch te zoeken. Hierdoor komt alleen informatie naar boven over een gebied dat door de gebruiker is aangegeven.
Andere talen
Samen met een collega testte Brandsen de zoekmachine, AGNES genaamd. ‘Mijn collega had een database over crematies in de vroege middeleeuwen in Nederland gekregen van dé expert op die periode. Deze hoogleraar heeft zijn hele leven gewerkt aan het verzamelen van die data. Toch vonden we met de zoekmachine dertig procent extra crematies uit de vroege middeleeuwen. Je ziet dus dat zelfs een expert niet alles weet, doordat er zoveel data is.’
Een ruwe versie van AGNES staat nu online en kan met een accuraatheid van zo’n tachtig procent zoekopdrachten uitvoeren. Als post-doc gaat Brandsen de zoekmachine preciezer maken en verder uitbreiden door ook het zoeken in andere talen mogelijk te maken.
Data Science Onderzoeksprogramma
Het onderzoek van Brandsen is onderdeel van het Data Science Onderzoeksprogramma. Dit programma combineert Leidse promotieonderzoeken uit allerlei disciplines met data science. ‘Voor corona zaten we twee dagen per week met elkaar op kantoor. Dan zag je dat anderen ook bezig waren met deep learning, maar dan bijvoorbeeld op het gebied van teksten in de Rechten. Het was heel fijn om samen informatie te delen en om interdisciplinair samen te werken met mensen die dezelfde soort techniek toepassen.’
Tekst: Dagmar Aarts
Bannerfoto: Vroegmiddeleeuwse crematie gevonden in een urn in Den Haag. Waasdorp, J.A.; Eimermann, E. (2008): Solleveld, Gemeente Den Haag. DANS