Inhaltsverzeichnis
Implementierung
Das Konzept des Datensatzes ist grundsätzlich unabhängig von der verwendeten Programmiersprache für die Datenauswertung. Genauso unabhängig sind einige Aspekte zur Umsetzung, die aus mehrjähriger Erfahrung kommen und die nachfolgend aufgelistet werden sollen.
Struktur
Die grundlegende Struktur des Datensatzes ist ein assoziatives Datenfeld, wie an anderer Stelle ausführlicher beschrieben.
Generische Routinen
Aufgrund der modularen Konzeption des Datensatzes kann eine Reihe von Routinen implementiert werden, die mit jeder Form von Datensatz1) zurechtkommen.
- Definition des allgemeinen Datenmodells
- Definition der Historie-Struktur
- Speichern und Einlesen von Datensätzen
In ähnlicher Weise lassen sich für das Einlesen der Metadaten generische Routinen implementieren, die die folgenden beiden Aufgaben erfüllen:
- Einlesen und Parsen von Infodateien
- Abbildung („mapping“) der Informationen auf die Strukturen im Datensatz
All diese generischen Funktionen sollten in einem separaten, von den jeweils spezifischen Toolboxen unabhängigen Modul abgelegt werden, das dann von jeder Toolbox verwendet werden kann (und sollte).
Spezifische Routinen
Die vermutlich wichtigste Klasse spezifischer Routinen ist der Import der Primärdaten aus den jeweiligen (zahlreichen) Datenformaten.
Austauschformat
Als Austauschformat für Datensätze bietet sich u.a. aufgrund der hierarchischen internen Struktur das XML-Format an.
Von den beiden bestehenden Toolboxen – trEPR-Toolbox und TA-Toolbox – her kommend empfiehlt sich zur Speicherung die Separierung der eigentlichen Daten (Feld data
in der Datensatz-Struktur) aus dem XML-Baum und die Abspeicherung dieser Daten im Standard-Binärformat.
Beide Dateien, die Binärdatei mit den eigentlichen numerischen Daten und die XML-Datei mit der Struktur, werden dann in ein gemeinsames Verzeichnis gelegt und ZIP-komprimiert.
Für Details zum Austauschformat siehe die separate Seite.