Dieses Readme wird automatisch generiert; README bearbeiten
Dieses Repositorium enthält die Ausgangsdaten der Papyri-Wörterlisten (vgl. WL.pdf bzw. WL.html; Webanwendung verfügbar unter https://papyri.uni-koeln.de/papyri-woerterlisten).
Prof. Dr. D. Hagedorn erstellt seit 1996 (unter anfänglicher Mithilfe von Pia Breit, Wolfgang Habermann, Ursula Hagedorn, Bärbel Kramer, Gertrud Marohn und Jörn Salewski; seit 2017 in Zusammenarbeit mit Klaus Maresch) Wörterlisten aus den Registern von Publikationen griechischer und lateinischer dokumentarischer Papyri und Ostraka. Zur Verwendung kam dafür eine selbst entwickelte HyperCard-Anwendung, die mit der Zeit auch parallel in FileMaker gepflegt wurde.
Dieses Repositorium umfasst einen Transformations-Workflow ab FileMaker-XML-Exporten sowie die daraus resultierenden Wörterlisten-Dateien in TEI-XML
.
Die Wörterlisten umfassen 37427 Einträge, wovon 35145 in griechischer und 2282 in lateinischer Sprache (Stand 12. Juli 2024, 27. Fassung). Die Verteilung auf die Kategorien ist nachstehend illustriert.
Sprachübergreifend
general: |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||16714
geography: |||||||||||||||||||||||4748
persons: ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||15316
monthsDays: 127
religion: ||522
Griechisch
general: ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||15211
geography: |||||||||||||||||||||||4681
persons: |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||14637
monthsDays: 105
religion: ||511
Lateinisch
monthsDays: 22
persons: |||679
geography: 67
religion: 11
general: |||||||1503
| = 200 Einträge
- Versions- und Literaturangaben aktualisieren (
meta/literature.xml
,meta/versions.xml
,meta/editors.xml
) - FileMaker-XML-Dateien in das Verzeichnis
staging/input
speichern. conversion.xpl
ausführen- Reporting auswerten bzw. Dateien in
staging/output
mit den bisherigen Dateien vergleichen (current
) - Dateien in
current
durch Dateien instaging/output
ersetzen git commit
bzw. Pull-Request erstellen- Version taggen bzw. Release erstellen
Vor jeder Datenübernahme sind die Meta-Dateien literature.xml
, versions.xml
und ggf. editors.xml
zu aktualisieren bzw. ergänzen.
Der eigentliche Abgleich ist als XProc-Pipeline angelegt. Innerhalb der Pipeline werden verschiedene XSL-Transformationen ausgeführt und die einzelnen Einträge schließlich als Einzeldateien ins Output-Verzeichnis geschrieben. Die Transformationsschritte umfassen:
- Überprüfung des
Output
-Verzeichnis - Duplikat-Check
- Vereinigung der Importdateien
- Strukturangleichung der Importdateien
- Erstellung der TEI-Struktur mit Übernahme bestehender Identifikatoren
- Vergabe neuer Identifikatoren für neue Einträge (sprachweise)
- Aufbau des Metadaten-Abschnitts (
teiHeader
) inkl. Übernahme der Metadaten zu früheren Bearbeitungsschritten - Ausgabe von Behelfsdateien für die Webanwendung
- Ausgabe einer aktuellen README-Datei
Die XProc-Pipeline (staging/conversion.xpl
) muss einmal angestossen werden, der Prozess läuft dann selbständig durch. Dieser Prozess kann sowohl in oXygen XML Editor (unter Nutzung des integrierten Calabash-Prozessors; vlg. Anleitung) oder auf der Kommandozeile erfolgen (ebenfalls unter Nutzung des Calabash-Prozessors oder eines anderen XProc-Prozessors.
Der Vorgang ist relativ speicherintensiv und dauert für einen Voll-Abgleich je nach System/Konfiguration eine gute Stunde oder länger.
In der Datei staging/conversion.xpl
lassen sich mehrere Parameter konfigurieren (direkt in der Datei oder im oXygen-XProc-Transformationsszenario im Tab Optionen
):
Parameter | Beschreibung |
---|---|
version |
Fassung; Versionsnummer , Versionsname , Datum , jeweils getrennt durch ¦ ('21¦21. Version¦27.07.2017' ) |
editor |
Bearbeiter; z.B. als Github-Konto, Verweis auf eine xml:id oder als Klarnamen |
task-newEntries |
aktueller Bearbeitungsschritt für Neuaufnahmen (z.B. Auflistung der neuen Kurztitel); dieser wird als <change> -Element in die <revisionDesc> aufgenommen |
task-existingEntries |
aktueller Bearbeitungsschritt für bestehende Einträge; dieser wird als <change> -Element in die <revisionDesc> aufgenommen |
schemaPath |
Pfad zum Verzeichnis, welches das XML-Schema (.rng-Datei ) enthält |
comparisonBase |
aktuelles Datenverzeichnis; die FileMaker-Exportdateien werden mit den in diesem Verzeichnis liegenden Dateien abgeglichen; für Workflow-Tests lässt sich hier ein weniger umfangreiches Verzeichnis angeben |
outputScenario |
hier lässt sich für Workflow-Tests mit 'oneFile' die Ausgabe in einer Einzeldatei festlegen; jeder andere Wert führt zur Standardausgabe (eine Datei pro Eintrag) |
resultPath |
Pfad zum Verzeichnis, in welches die generierten Dateien geschrieben werden |
result-url |
bei der Generierung einer Einzeldatei kann der Dateinamen als Zusatz zu resultPath angegeben werden |
Die Werte müssen mit umschließenden einfachen Anführungszeichen eingetragen werden.
Die Daten umfassen fünf unterschiedliche Kategorien. Jedes Lemma kann in einer bestimmten Schreibweise in jeder Kategorie nur einmal vorkommen.
Der Datenabgleich/Import verläuft nur erfolgreich bzw. die Datenkonversion wird erst angestoßen, wenn es innerhalb der Kategorien keine zeichen-identischen Lemmata gibt. Dieser Sachverhalt wird in einem der ersten Schritte der Pipeline überprüft. Dabei werden problematische Duplikate identifiziert und in einer Liste ausgegeben (Markdown-Format). Nach manueller Bereinigung der Duplikate kann die Konversion neu gestartet werden.
Jedem Lemma wird im Zuge der Datenübernahme eine sog. PWL-ID zugewiesen. Seit Juli 2019 basiert die Datenkonversion nicht mehr auf einem zeichenidentischen Lemma-Abgleich, sondern auf dieser ID.
Als Konsequenz daraus müssen neu zugewiesene PWL-IDs für jede neue Fassung/Version in FileMaker importiert werden. Die Konversionsroutine legt dazu im Verzeichnis output/return
für jede Inputdatei eine um die IDs erweiterte Datei an, die sich in FileMaker importieren lässt.
Kontaktadresse: papyri-woerterlisten AT uni-koeln.de
Institut für Altertumskunde, Universität zu Köln, Albertus-Magnus-Platz, D-50923 Köln
Cologne Center for eHumanities, Universität zu Köln, Albertus-Magnus-Platz, D-50923 Köln
Daten und README zuletzt generiert am 12. Juli 2024 mit XML Calabash 1.5.7 (for Saxon 12.3/EE) von Norman Walsh und SAXON EE 12.3 von Saxonica (XSL 3.0).