Jaarverslag 2011 Meertens Instituut

Technische ontwikkeling



De afdeling Technische Ontwikkeling bouwt databases, ontwikkelt webapplicaties en zorgt voor de technische ontwikkeling en het beheer van de website(s). Steeds meer onderzoeksresultaten en collecties van het instituut komen terecht in databases die worden ontsloten via de website voor onderzoek en voor een breder publiek.

In 2011 lag de uitdaging met name in versteviging van de strategische positie in het veld van de e-Humanities, de uitbouw van de benodigde technische expertise en de realisatie van concrete resultaten ten behoeve van het onderzoek. Dit heeft zich onder andere vertaald in een toename van het aantal projecten in samenwerking met externe partijen.

Als voorheen speelt het Meertens Instituut een actieve rol binnen CLARIN-NL en levert het een inbreng aan de drie centraal ingestelde infrastructurele projecten (Infrastructuur Implementatie Plan, Search & Develop en TTNWW, zie hieronder). Versterking van de synergie tussen de verschillende projecten is door de huisvesting van het Catch+ projectbureau bij het Meertens Instituut verder bevorderd. De Persistente Identifier Service wordt op dit moment door SARA breed ter beschikking gesteld binnen zowel de CLARIN-gemeenschap als de erfgoedsector. De ontwikkelingen rondom de business modellen binnen Catch+ hebben ertoe bijgedragen dat de discussies in het wetenschappelijk en cultureel erfgoedveld omtrent de opzet van een breed gedragen, stabiel en betrouwbaar serviceplatform verder vorm gekregen hebben. Het belang van het behalen van projectoverstijgende synergievoordelen heeft zich verder vertaald in de participatie op zowel infrastructureel als inhoudelijk gebied aan de lopende projectaanvragen voor Nederlab en CLARIAH.

De resultaten uit de projecten van het afgelopen jaar hebben hun weerslag gevonden in de creatie van een aantal kerncomponenten die nodig zijn voor de technologische ondersteuning van e-Humanities binnen het Meertens Instituut. Verschillende onderdelen van het archiveringsproces zijn verder doorontwikkeld en dragen bij aan een steeds groeiend geheel van Meertens databronnen die op standaard wijze via de infrastructuur van CLARIN aangeboden worden. In aansluiting hierop is de nodige aandacht uitgegaan naar de creatie van betere ontsluitingsmogelijkheden op basis van moderne information retrieval technologie. Deze zullen op korte termijn de toegankelijkheid tot de Meertens databronnen verder bevorderen.

Ook op het gebied van de service-integratie met externe partijen zijn de nodige ervaringen opgedaan. In directe samenwerkingprojecten met onderzoekers en technologieproviders zijn een aantal koppelingen gerealiseerd waarmee services die elders ontwikkeld zijn, direct binnen onderzoeksprojecten ingezet konden worden. Ook hiermee worden de mogelijkheden tot samenwerking op een gedeelde technologische basis vergroot. Een voorbeeld hiervan is de inzet van de Adelheid tagger voor middeleeuwse teksten die aan de Radboud Universiteit ontwikkeld wordt. Deze wordt door het Max Planck Instituut als CLARIN-centrum breed ter beschikking gesteld en vormt een cruciaal onderdeel van het INPOLDER project.

Een aantal van de projecten zijn speciaal uitgelicht en geven een beeld van de diversiteit aan activiteiten binnen de afdeling Technische Ontwikkeling.

Uitgelichte projecten

Gekaapte Brieven (2011-2012)

In november 2011 is, met steun van het Prins Bernhard Cultuurfonds, een vrijwilligersproject gestart t.b.v. de ontsluiting en transcriptie van gekaapte documenten uit de 17e- en 18e- eeuw. Er zijn ongeveer 150 vrijwilligers geworven. Bij het project wordt samengewerkt met een groot aantal instellingen (Huygens ING, Koninklijke Bibliotheek, Nationaal Archief, Fryske Akademie, UL/M. van der Wal, Brill, UvA), die tezamen in 2011 het Prize Papers Consortium hebben opgericht. De afdeling Technische Ontwikkeling heeft software ontwikkelt voor de online-invoer van metadata en transcripties van de ongeveer 8000 Nederlandse brieven uit 17e- en 18e- eeuw, afkomstig van de National Archives in London. De software bestaat uit drie componenten: a) Een gebruikersapplicatie voor het invoeren van gegevens. b) Scripts voor gegevensoverdracht tussen de applicatie en online database-server. c) Website voor monitoring en beheer van gegevens.
Medewerkers: N. van der Sijs (onderzoeker) en R. Zeeman (software ontwikkelaar).

e-Humanities Catalogus Beheer en Zoekmachine (2011)

De e-Humanities groep houdt een eigen catalogus bij met nu in totaal ongeveer 1000 boeken en tijdschriften op het gebied van de Digital Humanities. Deze catalogus was oorspronkelijk ondergebracht bij het Instituut voor Internationale Sociale Geschiedenis. De e-Humanities groep heeft de afdeling Technische Ontwikkeling van het Meertens Instituut verzocht om software te ontwikkelen waarmee hun catalogus aan de hand van metadata verder beheerd en ontsloten kan worden met een zoekmachine. De afdeling heeft aan dit verzoek voldaan. Zie de website. Project in samenwerking met de e-Humanities groep (KNAW).
Medewerker: J. Zhang (software-ontwikkelaar).

CatchPlus (2010-2012)

Het belangrijkste doel van CATCHPlus is het verzilveren van onderzoeksresultaten tot bruikbare tools en diensten voor de hele Nederlandse erfgoedsector. Deze software leidt tot betere ontsluiting en grotere toegankelijkheid van collecties van erfgoedinstellingen. Door de unieke samenwerking tussen grote erfgoedinstellingen, universiteiten en bedrijfsleven ontstaat een nieuw knooppunt tussen ICT en erfgoed. De producten uit CATCHPlus bevorderen de samenwerking en samenhang in de informatie-infrastructuur van de erfgoedsector. Zie http://www.catchplus.nl. Project in samenwerking met onder andere het Nationaal Archief, Koninklijke Bibliotheek, Instituut voor Beeld en Geluid, Gemeentearchief Rotterdam, Rijksmuseum, Amsterdam Museum, Naturalis, Gemeentearchief Den Haag, Rijksdienst Cultureel Erfgoed. Begin 2011 is de subsidieaanvraag bij PRIMA gehonoreerd met als gevolg dat het project met een half jaar is verlengd tot 1 juli 2012. De meeste deelprojecten hebben een enorme vooruitgang geboekt in 2011. Eind 2011 zijn de meeste tools en diensten in de afrondingsfase. De taken voor CHIP+ zijn overgegaan van het Rijksmuseum naar het Amsterdam Museum. De resultaten (Art Recommender service en User Profile Repository) zijn eind 2011 in de opleveringsfase. Ook Scratch4all, ChoralPlus en Museumplus naderen de eindstreep en er is reeds een webservice voor PID's ontwikkeld. Een businessmodel voor de borging van de tools en diensten is in ontwikkeling en zal in het laatste half jaar gestalte krijgen. Het draagvlak daarvoor is voelbaar over de hele erfgoedsector maar ook bij de kennisinstellingen en het bedrijfsleven, die hierin vanwege de potentie graag investeren. Sinds september 2011 is het projectbureau versterkt met een redacteur/communicatiemedewerker die ervoor zorgt dat CATCHPlus in verschillende media onder de aandacht wordt gebracht. De CATCHPlus bijeenkomsten zijn goed bezocht door zowel direct betrokkenen als door erfgoedspecialisten, medewerkers van kennisinstellingen, bedrijven en overheid. Het CATCHPlus projectbureau heeft actieve bijdragen geleverd aan diverse nationale en internationale congressen en bijeenkomsten: DISH2011, Taal en Bedrijf, ICT-Delta, e-Humanities Research Group, Open Annotation Consortium, EPIC.
Medewerkers: P. Alkhoven (projectmanager), H. Brugman (technisch coördinator), E. Renckens (communicatie).

WITCHCRAFT-plus (2009-2011)

In het CATCH-project WITCHCRAFT werd een melodieënzoekmachine ontwikkeld die deel zal uitmaken van de Nederlandse Liederenbank. Met deze webgebaseerde zoekmachine kunnen zowel onderzoekers als het grote publiek een groeiende verzameling gecodeerde melodieën doorzoeken door gebruik te maken van zuiver muzikale kenmerken. Tot dusver was een aantal experimentele gereedschappen ontwikkeld voor de codering en het doorzoeken van de liederen, alsmede een aantal componenten voor het gebruikersinterface. Deze zijn echter nog niet robuust en gebruikersvriendelijk genoeg om ze na afloop van het WITCHCRAFT-project betrouwbaar en efficiënt te kunnen blijven inzetten. Het beoogde resultaat van WITCHCRAFT-plus is een suite van componenten waaruit een robuuste, effectieve en bruikbare webgebaseerde zoekmachine voor melodieën kan worden samengesteld, met bijbehorende gereedschappen voor dataproductie en -management.
Resultaten in 2011: programmeur B. Versteegh breidde de software voor de online muziekeditor substantieel uit en zijn vervanger, L. Vogelzang, maakte een begin met de bouw van de nieuwe melodieënzoekmachine. Ex-WITCHCRAFT OiO P. van Kranenburg was in 2011 enkele maanden verbonden aan WITCHCRAFT-plus: zijn converter wce2kern werd doorontwikkeld en hij voerde meerdere updates door in de melodieënzoekmachine. "Libmusical", de alignment library van zijn hand, werd in december in versie 1.0 gepubliceerd op sourceforge.net. Bovendien presenteerde hij een paper op het SDH2011-congres in Kopenhagen en was hij co-auteur van een artikel dat werd ingediend bij Journal of New Music Research.
Medewerkers: M.J. de Bruin (projectleider), P. van Kranenburg (software-ontwikkelaar), B. Versteegh (software-ontwikkelaar), L. Vogelzang (software-ontwikkelaar).


Overige projecten

Alfalab (2008-2011)

Alfalab is een inititatief van de KNAW waarin vijf wetenschappelijke instituten samenwerken. Het doel is de samenwerking en het gebruik van digitale methoden in geesteswetenschappelijk onderzoek te bevorderen. Alfalab verspreidt hierover kennis over digitale instrumenten en data. Alfalab bouwt digitale instrumenten voor de geesteswetenschappelijke gemeenschap en doet onderzoek naar de inzet van digitale instrumenten in de geesteswetenschappen en hoe deze instrumenten (virtuele) samenwerkingsverbanden kunnen ondersteunen en stimuleren. Zie de speciale website. Project in samenwerking met DANS, Fryske Akademy, Huygens ING en de Virtual Knowledge Studio.
Resultaten in 2011: de applicatie is door R. Zeeman afgemaakt. De doelstellingen voor het Meertens Instituut inzake Alfalab zijn daarmee behaald. Daarnaast zijn er nog twee publicaties verschenen in congresbundels. Verder is op de einddag van Alfalab (29 september 2011) door D. Zeldenrust het resultaat van het Meertens Instituut gedemonstreerd.
Medewerkers: R. Zeeman (software-ontwikkelaar), D. Zeldenrust (coördinator externe samenwerking).

CLARIN-NL (2009-2014)

CLARIN-NL heeft tot doelstelling een researchinfrastructuur te ontwerpen, bouwen, valideren en exploiteren die nodig is om een duurzame en persistente e-Science werkomgeving te bieden aan wetenschappers in de geesteswetenschappen die gebruik willen maken van taalkundige data, bronnen en technologie. Het CLARIN-NL project is een groot Nederlands project dat een centrale rol wil spelen in de pan-Europese CLARIN-infrastructuur. Zie http://www.clarin.nl.
Resultaten in 2011: in het kader van CLARIN is gewerkt aan de verder uitwerking van het archief ingestsysteem. Authenticatie op basis van Shibboleth met aansluiting op de SURFnet federatie is gerealiseerd alsmede een eerste versie van het authorisatiesysteem waarmee databronnen afgeschermd kunnen worden. Binnen het subproject Search&Develop is een metadata zoekmachine gerealiseerd en een eerste versie van de gedistribueerde content search. Zie voor specifieke CLARIN-projecten de beschrijvingen hieronder.
Medewerkers: M. Kemps-Snijders (projectleider), J.P. Kunst (software-ontwikkelaar).

Infrastrukture Implementation Plan (IIP) (2010-2013)

Dit CLARIN-NL project heeft een sterke samenhang met de ontwikkelingen op het Europese CLARIN-niveau en heeft als doelstelling de grote fragmentatie aan infrastructurele onderwerpen samen te brengen en de mogelijkheid te bieden experts binnen de CLARIN-centers te trainen en op te leiden. Zie de website. Project in samenwerking met het Instituut voor Nederlandse Lexicologie, Max Planck Instituut voor Psycholinguistiek, DANS (Data Archiving and Networked Services).
Resultaten in 2011: in het kader van het Infrastructuur Implementatie Plan zijn de ontsluitingsmogelijkheden van het digitale archief verbeterd, waarbij gebruik is gemaakt van de CMDI infrastructuur, Component Registry en ISOcat Data Dategory Registry.
Medewerkers: J.P. Kunst (software-ontwikkelaar), M. Brouwer (software-ontwikkelaar), M. Kemps-Snijders (coördinator/software-ontwikkelaar).

Cognition, Acquisition and Variation tool (COAVA) (2011-2012)

In dit CLARIN-NL project wordt digitaal gereedschap ontwikkeld ten behoeve van innovatief interdisciplinair onderzoek waarbij gekeken wordt naar de talige eigenschappen van lexicale items, zowel binnen eerste taalverwerving als binnen dialectvariatie. Gereedschap dat in een eerder onderzoeksproject ontwikkeld werd om omvangrijke lexicale dialectdatabanken te ontsluiten, dient daarbij als uitgangspunt. De databanken die in dit project naast elkaar gelegd worden, zijn CHILDES en de digitale woordenboeken van de Limburgse en Brabantse dialecten. Het project laat zien hoe je met de CLARIN-infrastructuur sterk verschillende taalkundige disciplines, namelijk eerste kindertaalverwerving en (historische) dialectologie met elkaar in verband kunt brengen en de informatie uit dataverzamelingen van verschillende disciplines kunt laten overeenstemmen. Dit maakt het bijvoorbeeld mogelijk om te kijken welke variatie basisbegrippen, zoals zon, neus, boom en vis, vertonen in de woordenschat van dialecten en hoe ze als woorden worden geleerd door kinderen. Project in samenwerking met Prof. J. Swanenberg; Universiteit van Tilburg.
Resultaten in 2011: 1 internationale, geselecteerde lezing (SDH 2011, Copenhagen).
Medewerkers: L.M.E.A. Cornips (onderzoeker), M. Kemps-Snijders (software-ontwikkelaar), F. de Vriend (onderzoeksmedewerker infrastructuur), W.J. Heeringa (onderzoeker), M.H.M. Snijders (software-ontwikkelaar).

Search & Develop (2010-2013)

In dit CLARIN-NL project wordt een generieke zoekoplossing ontwikkeld waarmee het voor de wetenschappers mogelijk wordt om documenten verspreid over meerdere instituten te doorzoeken op basis van de combinatie van metadata en inhoudelijke kenmerken. De algemene zoekpatronen zullen worden vertaald naar de specifieke zoekoplossingen van de deelnemende instituten. Er wordt gebruik gemaakt van ISOcat en RELcat. Project in samenwerking met DANS (Data Archiving and Networked Services), Max Planck Instituut voor Psycholinguistiek, Instituut voor Nederlandse Lexicologie.
Resultaten in 2011: er is gewerkt aan de specificatie en implementatie van zoekmethodes die het voor onderzoekers mogelijk maakt  zowel door de beschrijvende data als door de gespecialiseerde zoekmachines op verschillende instituten te zoeken. Een eerste versie is gerealiseerd en wordt verder ontwikkeld in samenwerking met externe partners.
Medewerkers: M. Brouwer (software-ontwikkelaar), M. Kemps-Snijders (coördinator/software-ontwikkelaar), J.P. Kunst (software-ontwikkelaar). 

Typological Database System (TDS) Curator (2010-2011)

Het Typological Database System (CLARIN-NL) levert een geïntegreerde toegang tot meerdere onafhankelijk ontwikkelde typlogische databases middels een gemeenschappelijke gebruikersinterface. Hoewel het systeem momenteel operationeel is zal binnen dit project het TDS systeem omgezet worden naar een 'sustainable service' in overeenstemming met de CLARIN aanbevelingen. Het systeem bestaat uit een losstaande backend module waarmee data geïmporteerd en georganiseerd kan worden en een webgebaseerde front end waarmee eindgebruikers van informatie worden voorzien. Op dit moment is de toegang alleen mogelijk via de gespecialiseerde interactieve webinterface. Door een webservices architectuur te gebruiken wordt de gebruikersinterface van de datatoegangslaag gescheiden zodat de laatste hergebruikt kan worden door andere componenten. Op deze manier wordt de data van TDS op een transparante manier beschikbaar voor andere tools en data bronnen, terwijl de gebruikersinterface ingezet kan worden voor soortgelijke compatibele bronnen. TDS Curator zal door de ontwikkelaars overgedragen worden aan DANS als een empirische test case waarbij DANS als CLARIN A/B centrum fungeert. Zie de website. Project in samenwerking met DANS (Data Archiving and Networked Services), Universiteit Utrecht, Max Planck Instituut voor Psycholinguïstiek.
Resultaten in 2011: de afdeling Technische Ontwikkeling heeft een gebruikersinterface ontwikkeld voor de ontsluiting van het Typological Database System.
Medewerkers: M. Kemps-Snijders (coördinator/software-ontwikkelaar), R. Zeeman (software-ontwikkelaar).

TST Tools voor het Nederlands als Webservices in een Workflow (TTNWW) (2010-2012)

Het doel van dit CLARIN-NL project is om allerlei bestaande componenten die ontwikkeld zijn in (o.a.) Corpus Gesproken Nederlands (CGN) en STEVIN in te passen in een workflowsysteem voor web services dat (o.a. met grote Nederlandse inbreng, bijv. Max Planck Instituut) ontwikkeld wordt in CLARIN-verband, en dit geheel te laten draaien op servers van erkende CLARIN-centra, met als doel faciliteiten aan te bieden voor onderzoekers uit de HSS met geen of weinig technische bagage. Deze faciliteiten moeten hen 1) in staat stellen hun onderzoeksvragen beter of makkelijker aan te pakken en 2) mogelijkheden bieden voor het formuleren van nieuwe typen onderzoeksvragen, i.e. onderzoeksvragen die voor CLARIN niet gesteld konden worden of niet doelmatig te beantwoorden waren. Een belangrijk doel van het project is de in Nederland en Vlaanderen gangbare de facto standaarden voor dataformaten, interfaces tussen tools, en protocollen te promoten binnen CLARIN en te toetsen aan binnen CLARIN voorgestelde standaarden. Daarnaast de binnen CLARIN gangbare standaarden te toetsen aan de de facto standaarden die in Nederland en Vlaanderen ontwikkeld zijn in o.a. CGN en STEVIN. Daarmee beogen we een grote invloed uit te oefenen op het definiëren van het concept CLARIN-compatibel, dat momenteel in ontwikkeling is, en de rol van Nederland en Vlaanderen binnen CLARIN te consolideren en verder uit te bouwen. Zie de speciale website. Project in samenwerking met de Universiteit Groningen, Universiteit Utrecht, Universiteit van Tilburg, Instituut voor Nederlandse Lexicologie, Radboud Universiteit, Universiteit van Twente.
Resultaten in 2011: binnen TTNWW is een cloud omgeving ingericht waarin de verschillende services die vanuit TTNWW beschikbaar komen kunnen worden ondergebracht. Een aantal van de beschikbare NLP services (Frog, Ticclops, Alpino) zijn via deze omgeving beschikbaar. Verder is gewerkt aan een dynamisch deployment model en is een gebruikersinterface ontwikkeld die het mogelijk maakt de gecreëerde workflows uit te voeren.
Medewerkers: M. Kemps-Snijders (coördinator/software-ontwikkelaar).

Curating the Dutch Song Database (2011-2011)

De Nederlandse Liederenbank bevat (meta-)data van 150.000 liederen en hun 15.000 bronnen (liedboeken, pamfletten, opnames, etc.) van de Middeleeuwen tot heden. Deze database werd gedurende de afgelopen 25 jaar gebouwd, herbouwd en uitgebreid, onder meer met behulp van subsidie van NWO en OCW, en werd in 2007 online gepubliceerd. In de loop der tijd werden delen ervan aangepast aan moderne standaarden, maar er werd nooit de mogelijkheid gevonden dit voor de database als geheel te doen. In dit curatieproject wordt wel naar het geheel gekeken en wordt ervoor gezorgd dat de content en het beschrijvingsmodel beschikbaar komen in contemporaine uitwisselingsformaten (CMDI, Dublin Core).
Resultaten in 2011: alle elementen van de Liederbank (liederen, zangers, audio, scans, etc) zijn beschreven in CMDI formaat en worden aan de CLARIN gemeenschap ter beschikking gesteld.
Medewerkers: E. Stronks (projectleider Universiteit Utrecht, Departement Nederlands), M. Brouwer (software-ontwikkelaar), M.J. de Bruin (software-ontwikkelaar), M. Kemps-Snijders (software-ontwikkelaar), C.M. van der Peet (software-ontwikkelaar).

Software-ontwikkeling t.b.v. online Nederlandse Liederenbank (2001-...)

Sinds 1990 bevindt zich binnen de muren van de Meertens Instituut de onderzoeksdatabank Nederlandse Liederenbank. Om een groter publiek te kunnen bereiken werd een schaduwbestand met gebruikersvriendelijke interface gebouwd in MySQL/PHP voor online raadpleging. Toegevoegd werden onder meer de collectie veldwerkopnames van het Meertens Instituut in mp3-formaat en verwijzingen naar de gescande straatliederencollectie op het Geheugen van Nederland. Hiermee is de NLB een van de grootste en meestbiedende lied-databanken ter wereld. Zie ook www.liederenbank.nl.
Resultaten in 2011: de software van de Nederlandse Liederenbank is op meerdere punten aangepast ten behoeve van de projecten 'Speelmuziek', 'WITCHCRAFT-plus' en 'Dutch Songs On Line (DSOL)'. Bovendien is een datacuratieproject uitgevoerd ('C-DSD').
Medewerkers: M.J. de Bruin (software-ontwikkelaar).

Software-ontwikkeling t.b.v. de voornamen uit de GBA (2009-...)

Bouwen van databases en opzetten website voor de voornamen 2006 uit de Gemeentelijke Basisadministratie.
Resultaten in 2011: een update van de brondatabase met data uit de GBA tot en met december 2010. Backup van de brondata geregeld (versleuteld i.v.m. privacyoverwegingen).
Medewerkers: M. Brouwer (software-ontwikkelaar), J.P. Kunst (software-ontwikkelaar).

Software-ontwikkeling t.b.v. het EDISYN-project (2005-2012)

Het European Dialect Syntax project kent twee doelstelling: (i) documentatie en analyse van syntactische verdubbelingsverschijnselen in Europese dialecten (ii) opbouwen van een Europees netwerk van dialectsyntactici. Standaardiseren van methodologie, opslag en retrieval van syntactische data. Binnen dit project wordt vanuit de afdeling Technische Ontwikkeling software ontwikkeld.
Resultaten in 2011: data uit Freiburgs Engels corpus (FRED) toegevoegd. Data van het Italiaans (ASIt) geupdate met POS tagging van de vraagzinnen. De gebruikersinterface is aangepast en verfijnd. Google Translate-optie toegevoegd voor corpora zonder glossen. Begonnen met verwerking Nordic Syntactic Judgments Database. R. Zeeman heeft een nieuw ontwerp voor de Edisyn sites gemaakt (zoekmachine en dialectsyntax.org). Dialectsyntax.org gemigreerd naar het MediaWiki-platform.
Medewerkers: J.P. Kunst (software-ontwikkelaar), R. Zeeman (webdesign).

XML-toegang bibliotheekcatalogus t.b.v. de Virtuelle Fachbibliothek Benelux (2011-...)

Softwareontwikkeling, xml-interface voor de Meertens bibliotheekcatalogus t.b.v. de koppeling met de Digitale Vakbibliotheek Benelux Münster. Project in samenwerking met de Universiteit Münster, Virtuelle Fachbibliothek Benelux.
Resultaten in 2011: het voorbeeld van de XML file is opgestuurd naar Münster, getest en goedgekeurd. Vervolgens  is hiervan de webservice gemaakt.
Medewerker: C.M. van der Peet (software-ontwikkelaar).