Implementierung

Das Konzept des Datensatzes ist grundsätzlich unabhängig von der verwendeten Programmiersprache für die Datenauswertung. Genauso unabhängig sind einige Aspekte zur Umsetzung, die aus mehrjähriger Erfahrung kommen und die nachfolgend aufgelistet werden sollen.

Struktur

Die grundlegende Struktur des Datensatzes ist ein assoziatives Datenfeld, wie an anderer Stelle ausführlicher beschrieben.

Generische Routinen

Aufgrund der modularen Konzeption des Datensatzes kann eine Reihe von Routinen implementiert werden, die mit jeder Form von Datensatz¹⁾ zurechtkommen.

Definition des allgemeinen Datenmodells
Definition der Historie-Struktur
Speichern und Einlesen von Datensätzen

In ähnlicher Weise lassen sich für das Einlesen der Metadaten generische Routinen implementieren, die die folgenden beiden Aufgaben erfüllen:

Einlesen und Parsen von Infodateien
Abbildung („mapping“) der Informationen auf die Strukturen im Datensatz

All diese generischen Funktionen sollten in einem separaten, von den jeweils spezifischen Toolboxen unabhängigen Modul abgelegt werden, das dann von jeder Toolbox verwendet werden kann (und sollte).

Spezifische Routinen

Die vermutlich wichtigste Klasse spezifischer Routinen ist der Import der Primärdaten aus den jeweiligen (zahlreichen) Datenformaten.

Austauschformat

Als Austauschformat für Datensätze bietet sich u.a. aufgrund der hierarchischen internen Struktur das XML-Format an.

Von den beiden bestehenden Toolboxen – trEPR-Toolbox und TA-Toolbox – her kommend empfiehlt sich zur Speicherung die Separierung der eigentlichen Daten (Feld data in der Datensatz-Struktur) aus dem XML-Baum und die Abspeicherung dieser Daten im Standard-Binärformat.

Beide Dateien, die Binärdatei mit den eigentlichen numerischen Daten und die XML-Datei mit der Struktur, werden dann in ein gemeinsames Verzeichnis gelegt und ZIP-komprimiert.

Für Details zum Austauschformat siehe die separate Seite.

¹⁾

Mit „Form von Datensatz“ ist hier gemeint, dass Datensätze für jede beliebige Art von Daten verarbeitet werden können, da ja jeder Datensatz-Typ dem gleichen grundlegenden Aufbau folgt.