Systematiek voor Metadata

Marijke van der Wal

3 oktober 2011

Beste consortiumgenoten,

Zoals ik al eerder heb aangegeven zal ik onze ervaringen met metadata en transcripties binnen het Brieven als Buit-programma graag delen om tot een optimale aanpak bij de inventarisatie en transcriptie van het Metamorfozemateriaal te komen.

Bij het vaststellen van een systeem voor het toekennen van metadata moet, lijkt me, nu eerst beslist worden of aanvankelijk gewerkt gaat worden met een beperkte metadatasystematiek die later uitgebreid wordt of dat direct een uitvoeriger systematiek wordt opgesteld. Wij hebben in onze Brieven als Buit-database heel wat onderscheidingen waarvoor gegevens alleen maar uit een gedetailleerde transcriptie of uit nader onderzoek kunnen komen. Die onderscheidingen zijn ook sterk ingegeven door ons sociohistorisch taalkundig onderzoek. Ik kan me voorstellen dat vanuit een andere invalshoek nog weer andere kenmerken relevant zijn als aanvullende metadata. Zijn die meer specialistische onderscheidingen iets voor een latere fase, maar moet er wel al rekening mee gehouden worden in het ontwerp? Het lijkt me belangrijk hier een standpunt in te bepalen.

Ik zal hieronder aangeven welke onderscheidingen in een basale metadatasystematiek in elk geval opgenomen zouden moeten worden. Ook noem ik enkele problemen om rekening mee te houden. De onderscheidingen die sterk gerelateerd zijn aan ons type onderzoek laat ik hier dus weg, maar ik ga daar aan het eind nog op in. Mogelijk willen collega’s vanuit andere invalshoeken daarop reageren. Hieronder nu eerst mijn voorstellen en opmerkingen over de inventarisatie.

1.      Algemeen

 ID gebaseerd op signatuur HCA & unieke code voor het betreffende document.

Aan de foto’s ook een (gelijkende) code voor transcripties koppelen. Let eveneens op de problematiek van de losse enveloppen (zie hieronder).

Tekstsoort (reactie op onderstaande keuzelijst Nicoline):     

            – envelop

            – brief

            – dagboek

            – verhoor

            – rekening

            – vrachtlijst

            – afschrift notariële akte

            – gedicht

            – tekstloos [het laatste wordt toegekend aan een afbeelding van bijvoorbeeld de rug van een doos, iets waar geen tekst op staat]

            – anders, namelijk:

Hier zou ik het dagboek vervangen door het scheepsjournaal of een extra categorie scheepsjournaal toevoegen. 

 De dozen bevatten ook materiaal (brieven, rekeningen, verhoren) in andere talen. Het lijkt me nodig om direct bij de inventarisatie ook het niet-Nederlandse materiaal te markeren (aanvinken van diverse opties in de metadata-editor).

 2.      Brieven

Wat speciaal het brievenmateriaal betreft: in de metadata-editor zou ik een duidelijke scheiding maken tussen gegevens over de brieven zelf, over de afzender(s) en over de geadresseerde(n) en bij voorkeur steeds een veld bijzonderheden aan elk van deze drie koppelen. Eén veld bijzonderheden wordt wel een heel diverse vergaarbak.

2.1.   Brieven zelf

Hier in elk geval drie soorten metadata:

1.         Datering:        dag/maand/jaar

Met aanvinkoptie “onduidelijk/onbekend”, want datering ontbreekt soms of is onleesbaar geworden.

2.         Adressering: op de brief/ envelop / ontbrekend (3 opties)

Bij de 17de-eeuwse brieven staat de adressering op de brief zelf, bij laat-18de-eeuwse brieven vaak op een envelop of een verzamelomslag. In het laatste geval zijn enveloppen ook weg geraakt of zijn losse enveloppen in dozen niet of met enige moeite te koppelen aan specifieke brieven. Dat moet gesignaleerd worden om uiteindelijk de juiste verbanden te kunnen leggen tussen de inhoud van de brief en de geadresseerde.

3.         Type brief: privé/ zakelijk/ gemengd (3 opties)

4.         Bijzonderheden: dit veld is vrij in te vullen met info over de materiële kant van de brief, het handschrift etc.

2.2.   Afzender(s)

1.         Geslacht:        man/vrouw/onbekend

2.         Naam:

Er moet rekening gehouden worden met het feit dat er meerdere afzenders kunnen zijn. Suggestie om een aanvinkoptie te maken (*meerdere afzenders, nl. ook…………..)

3.         Locatie plaats:

4.         Locatie straat:

5.         Locatie regio:

6.         Locatie land:

7.         Locatie schip:

8.         Bijzonderheden: dit veld is vrij in te vullen met info over de afzender(s).

Uiteraard worden niet alle items 3 t/m 7 ingevuld, maar zo dek je wel alle mogelijke in de brief vermelde locaties af. Soms is ook een land niet genoemd, maar wel uit de genoemde plaats af te leiden.

Bij de in te vullen items 2 t/m 7 is de vraag hoe je dit technisch precies wilt doen. Wij hebben in onze database bij dergelijke items steeds 2 velden: 1 voor de naam zoals die in de brief staat en 1 voor de genormaliseerde naam. Om een voorbeeld te geven: een brief is verstuurd vanaf Stasius. Degene die inventariseert vult Stasius in en weet niet dat dit voor St. Eustatius staat. Dan kan dat later alsnog in het genormaliseerde veld ingevuld worden. Er kan ook eenvoudig gezocht worden in de database op de genormaliseerde namen. Alternatief is al direct genormaliseerde namen aanbieden (drop down menu), maar die zijn zeker niet voor al deze velden te voorzien. Dat vraagt dan om een voorziening waarbij automatisch nieuwe namen aan het drop down menu worden toegevoegd.

2.3.   Geadresseerde(n)

Bij de geadresseerde(n) dezelfde 8 onderscheidingen aanbrengen als bij de afzender(s). Ook daar rekening houden met het feit dat er meerdere geadresseerden kunnen zijn. Aanvinkoptie  maken (*meerdere geadresseerden, nl. ook…………..).

Veld 8 Bijzonderheden: dit veld is vrij in te vullen met info over de geadresseerde(n).

3.      Discussie over meer gespecialiseerde metadata

De vraag is welke items boven de basale metadatasystematiek toegevoegd kunnen en moeten worden. In de transcriptiefase kunnen nog – zonder verder onderzoek – de volgende items toegevoegd worden:

1. Het aantal woorden dat een brief telt, zodat direct de omvang duidelijk wordt. Die telling moet gebaseerd zijn op een word count in de diplomatische transcriptie en kan dus pas in het transcriptiestadium aangegeven worden.

2. veld voor (in de brief, buiten de adressering) genoemde personen

3. (idem) genoemde plaatsen

4. (idem) genoemde schepen

5. gebeurtenissen (kan eventueel met aanvinken van keuzemogelijkheden plus de optie anders nl…).

Ook zou het goed zijn om in de transcriptiefase een aanvinkmogelijk te hebben om aan te geven of er ook passages in andere talen dan het Nederlands binnen een Nederlandse brief voorkomen.

Wij onderscheiden binnen de Brieven als Buit-database meer items, direct gerelateerd  aan ons sociohistorisch linguïstisch onderzoek, die ook voor historici relevant kunnen zijn. Het invullen van gegevens voor die items kan soms op basis van de brief zelf zoals bij het item relatie van afzender tot geadresseerde (reeks van specifieke familierelaties, vriendenrelatie,  zakelijke relatie) en omgekeerd relatie van geadresseerde tot afzender. Ook het beroep is regelmatig uit de brief zelf af te leiden, maar vaak is er ook aanvullend onderzoek voor nodig. Dat geldt zeker voor opleiding, sociale klasse, godsdienst en leeftijd (of geboortedecennium/ geboortejaar). Het is dus de vraag of in de (volgende) transcriptiefase deze items steeds voor het Metamorfozemateriaal ingevuld kunnen worden. Die items zijn evenwel relevant voor verschillende soorten van onderzoek en zouden daarom wel deel uit moeten maken van de uitgebreide versie van de metadata-editor.

Nader onderzoek en een uitvoerige analyse zijn eveneens nodig om te bepalen of de brieven autografen zijn of niet. Zie voor deze problematiek en de relevantie ervan Judith Nobels & Marijke van der Wal. 2009. “Tackling the Writer-Sender Problem: the newly developed Leiden Identification Procedure (LIP)”. Internet Journal Historical Sociolinguistics and Sociohistorical Linguistics 9. http://www.let.leidenuniv.nl/hsl_shl/Nobels-Wal.html.

De onderscheiding autograaf/ geen autograaf/ onduidelijk (3 opties) is uiterst relevant niet alleen voor taalkundig onderzoek en daarom nodig in de uitgebreide versie van de metadata-editor, al zal dit item zeker voor het 17de-eeuwse materiaal over het algemeen zonder nader onderzoek niet ingevuld kunnen worden.  

 Mijn voorstellen en overwegingen zijn een gevraagde reactie op een eerste opzet van Nicoline van der Sijs (zie ook haar blog van 16 juni 2011). Commentaar en verdere suggesties zijn uiteraard welkom.

Marijke van der Wal.

This entry was posted in Inventarisatie, Lopende projecten. Bookmark the permalink.

Leave a Reply

Your email address will not be published. Required fields are marked *