Automatisches Generieren eines Modells aus einer Datenbank¶

Die Datenbankansicht ist der zentrale Arbeitsbereich, um Modell- und Weighting-Artefakte aus gescannten Datenbank-Metadaten zu erstellen.

Ab 3.2.0 ist der Ablauf in den Database-Workbench-Tabs (Planning, Weighting, Schema history) mit dedizierten Create-Aktionen organisiert.

Schritte¶

1. Stelle sicher, dass Du ein Projekt hast¶

Starte mit einem vorhandenen Projekt oder erstelle ein neues (zum Beispiel ein leeres Projekt).

2. Konfiguriere eine Datenbank-Umgebung¶

Öffne Settings → Umgebungen.
Füge eine Datenbank-Umgebung hinzu oder bearbeite eine bestehende.
Stelle sicher, dass Zugangsdaten und Verbindung korrekt sind.

3. Scanne Metadaten¶

Führe Metadaten scannen für die ausgewählte Umgebung aus.
Sind Metadaten veraltet, führe zuerst Metadaten zurücksetzen aus und scanne erneut.
Der Metadaten-Scan umfasst alle zugreifbaren Schemata der ausgewählten Verbindung.

4. Öffne die Datenbankansicht und plane dein Subset¶

Arbeite in der Datenbankansicht von links nach rechts:

Zone 1 - Scope: Umgebung, Schema-Filter und Tabellen wählen.
Spalten-Panel: Spalten prüfen und auswählen.
Database workbench → Planning: Plan subset ausführen, Abhängigkeits-Closure validieren und Subset-Preflight prüfen.

Datenbankansicht Planning und Subset-Preflight — Datenbankansicht: Zone-1-Scope, Subset-Planung und Dependency-Preflight

5. Erstelle Modell-Artefakte aus der Workbench¶

Nutze Generate artifacts im Planning-Tab.

A. Create Synthetic (`.xml`)¶

Klicke Create Synthetic.
Vergib einen Modell-Dateinamen.
Setze die Relationship-Quelle (datenbankbasiert oder generierte Weighting-Dateien unter data/).
Aktiviere optional schemaqualifizierte Namen.
Aktiviere optional SQL-Schema-Skript-Export (.scr.sql), falls für den Target-Setup benötigt.

Create Synthetic aus Datenbank-Metadaten — Create Synthetic: Naming, Relationship-Quelle und optionales SQL-Schema-Skript

B. Create Anonymize (`.xml`)¶

Klicke Create Anonymize.
Prüfe Source-Datenbank und wähle die Target-Datenbank.
Optional: PII-Preselect vor dem Erstellen anwenden und Threshold setzen.
Zur Namensvergabe wechseln und Artefakt erstellen.

Create Anonymize aus Datenbank-Metadaten — Create Anonymize: Source/Target-Einstellungen mit optionalem PII-Preselect

C. Create ML (`.xml`)¶

Klicke Create ML.
Prüfe die Source.
Vergib Dateinamen und aktiviere optional schemaqualifizierte Namen.
Erstelle das Modell-Artefakt.
Führe das erzeugte DSL-Modell aus, damit <ml-train> die ML-Generator-Versionen trainiert und persistiert.

Create ML-Trainingsmodell aus Datenbank-Metadaten — Create ML: Namensvergabe und Generierungsoptionen

Nächster Schritt: nach abgeschlossenem Trainingslauf Generator-Versionen und Qualitätsmetriken in der ML-Generator-Ansicht validieren und freigegebene Modelle anschließend mit source="ml://..." wiederverwenden, wie in ML-Generator aus Datenbank-Metadaten beschrieben.

6. Erstelle Weighting-Artefakte im Weighting-Tab¶

Wechsle zu Database workbench → Weighting:

Wähle genau eine Tabelle und eine oder mehrere Spalten im Metadaten-Scope.
Prüfe die gewählten Spalten im Weighting-Tab.
Klicke Create weighting.
Konfiguriere Sampling:
sample_size (Standard 1000)
sampling_mode (deterministic oder fresh)
include_nulls (true / false)
Dateinamen setzen und erstellen.

Ausgabe:

Eine ausgewählte Spalte → .wgt.csv
Mehrere ausgewählte Spalten → .wgt.ent.csv

Weighting-Tab in der Datenbankansicht — Weighting-Tab: ausgewählter Scope und Create-Aktion

Weighting-Wizard aus Datenbank-Metadaten — Weighting-Wizard: Sampling-Optionen und Namensvergabe

7. Schema Drift im Tab Schema history prüfen¶

Nutze Database workbench → Schema history, um erkannte Metadatenänderungen zwischen Snapshots zu prüfen, bevor du Artefakte neu erzeugst.

Schema history und Drift in der Datenbankansicht — Schema history: Drift-Erkennung und Snapshot-Vergleich

8. Erstellte Artefakte prüfen und verfeinern¶

Modell-Flows erzeugen neue DATAMIMIC-Modell-Dateien (.xml).
Weighting-Flow erzeugt Weighting-Dateien (.wgt.csv oder .wgt.ent.csv).
Die weitere Verfeinerung erfolgt im Editor (Schlüssel, Generatoren, Skripte, Konverter, Targets).

Typische erzeugte <reference>-Ausgaben aus dem metadatenbasierten Datenbank-Flow:

<reference name="fk_line_order" source="sourceDB" sourceType="sales.order_header">
    <field target="order_id" sourceKey="ORDER_ID"/>
    <field target="tenant_id" sourceKey="TENANT_ID"/>
</reference>

<reference name="fk_site" source="data/site_pref.wgt.ent.csv" weightColumn="sample_weight">
    <field target="site_ref" sourceKey="site_id"/>
    <field target="region_ref" sourceKey="region_code"/>
</reference>

9. Realistische Erwartungen an Empfehlungen setzen¶

Empfehlungen aus der Datenbankansicht sind unterstützend und werden kontinuierlich verbessert.
Für komplexe Schemata und produktive Anonymisierungsszenarien ist manuelle Nachbearbeitung der erzeugten Modelle zu erwarten.
Nutze projektspezifische Review-Kriterien, um PII-Entscheidungen, Relationship-Handling und fachliche Randbedingungen vor dem Rollout zu validieren.
Plane iterative Härtungszyklen ein, wenn sich Metadaten oder Quellschema ändern.

Für die vollständige <reference>-Semantik und Mapping-Priorität siehe Datendefinitionsmodell - Fortgeschrittene Elemente.