Zum Inhalt

Automatisches Generieren eines Modells aus einer Datenbank

Die Datenbankansicht ist der zentrale Arbeitsbereich, um Modell- und Weighting-Artefakte aus gescannten Datenbank-Metadaten zu erstellen.

Ab 3.2.0 ist der Ablauf in den Database-Workbench-Tabs (Planning, Weighting, Schema history) mit dedizierten Create-Aktionen organisiert.

Schritte

1. Stelle sicher, dass Du ein Projekt hast

Starte mit einem vorhandenen Projekt oder erstelle ein neues (zum Beispiel ein leeres Projekt).

2. Konfiguriere eine Datenbank-Umgebung

  • Öffne Settings → Umgebungen.
  • Füge eine Datenbank-Umgebung hinzu oder bearbeite eine bestehende.
  • Stelle sicher, dass Zugangsdaten und Verbindung korrekt sind.

3. Scanne Metadaten

  • Führe Metadaten scannen für die ausgewählte Umgebung aus.
  • Sind Metadaten veraltet, führe zuerst Metadaten zurücksetzen aus und scanne erneut.
  • Der Metadaten-Scan umfasst alle zugreifbaren Schemata der ausgewählten Verbindung.

4. Öffne die Datenbankansicht und plane dein Subset

Arbeite in der Datenbankansicht von links nach rechts:

  • Zone 1 - Scope: Umgebung, Schema-Filter und Tabellen wählen.
  • Spalten-Panel: Spalten prüfen und auswählen.
  • Database workbench → Planning: Plan subset ausführen, Abhängigkeits-Closure validieren und Subset-Preflight prüfen.
Datenbankansicht Planning und Subset-Preflight
Datenbankansicht: Zone-1-Scope, Subset-Planung und Dependency-Preflight

5. Erstelle Modell-Artefakte aus der Workbench

Nutze Generate artifacts im Planning-Tab.

A. Create Synthetic (.xml)

  1. Klicke Create Synthetic.
  2. Vergib einen Modell-Dateinamen.
  3. Setze die Relationship-Quelle (datenbankbasiert oder generierte Weighting-Dateien unter data/).
  4. Aktiviere optional schemaqualifizierte Namen.
  5. Aktiviere optional SQL-Schema-Skript-Export (.scr.sql), falls für den Target-Setup benötigt.
Create Synthetic aus Datenbank-Metadaten
Create Synthetic: Naming, Relationship-Quelle und optionales SQL-Schema-Skript

B. Create Anonymize (.xml)

  1. Klicke Create Anonymize.
  2. Prüfe Source-Datenbank und wähle die Target-Datenbank.
  3. Optional: PII-Preselect vor dem Erstellen anwenden und Threshold setzen.
  4. Zur Namensvergabe wechseln und Artefakt erstellen.
Create Anonymize aus Datenbank-Metadaten
Create Anonymize: Source/Target-Einstellungen mit optionalem PII-Preselect

C. Create ML (.xml)

  1. Klicke Create ML.
  2. Prüfe die Source.
  3. Vergib Dateinamen und aktiviere optional schemaqualifizierte Namen.
  4. Erstelle das Modell-Artefakt.
  5. Führe das erzeugte DSL-Modell aus, damit <ml-train> die ML-Generator-Versionen trainiert und persistiert.
Create ML-Trainingsmodell aus Datenbank-Metadaten
Create ML: Namensvergabe und Generierungsoptionen

Nächster Schritt: nach abgeschlossenem Trainingslauf Generator-Versionen und Qualitätsmetriken in der ML-Generator-Ansicht validieren und freigegebene Modelle anschließend mit source="ml://..." wiederverwenden, wie in ML-Generator aus Datenbank-Metadaten beschrieben.

6. Erstelle Weighting-Artefakte im Weighting-Tab

Wechsle zu Database workbench → Weighting:

  1. Wähle genau eine Tabelle und eine oder mehrere Spalten im Metadaten-Scope.
  2. Prüfe die gewählten Spalten im Weighting-Tab.
  3. Klicke Create weighting.
  4. Konfiguriere Sampling:
  5. sample_size (Standard 1000)
  6. sampling_mode (deterministic oder fresh)
  7. include_nulls (true / false)
  8. Dateinamen setzen und erstellen.

Ausgabe:

  • Eine ausgewählte Spalte → .wgt.csv
  • Mehrere ausgewählte Spalten → .wgt.ent.csv
Weighting-Tab in der Datenbankansicht
Weighting-Tab: ausgewählter Scope und Create-Aktion
Weighting-Wizard aus Datenbank-Metadaten
Weighting-Wizard: Sampling-Optionen und Namensvergabe

7. Schema Drift im Tab Schema history prüfen

Nutze Database workbench → Schema history, um erkannte Metadatenänderungen zwischen Snapshots zu prüfen, bevor du Artefakte neu erzeugst.

Schema history und Drift in der Datenbankansicht
Schema history: Drift-Erkennung und Snapshot-Vergleich

8. Erstellte Artefakte prüfen und verfeinern

  • Modell-Flows erzeugen neue DATAMIMIC-Modell-Dateien (.xml).
  • Weighting-Flow erzeugt Weighting-Dateien (.wgt.csv oder .wgt.ent.csv).
  • Die weitere Verfeinerung erfolgt im Editor (Schlüssel, Generatoren, Skripte, Konverter, Targets).

Typische erzeugte <reference>-Ausgaben aus dem metadatenbasierten Datenbank-Flow:

1
2
3
4
<reference name="fk_line_order" source="sourceDB" sourceType="sales.order_header">
    <field target="order_id" sourceKey="ORDER_ID"/>
    <field target="tenant_id" sourceKey="TENANT_ID"/>
</reference>
1
2
3
4
<reference name="fk_site" source="data/site_pref.wgt.ent.csv" weightColumn="sample_weight">
    <field target="site_ref" sourceKey="site_id"/>
    <field target="region_ref" sourceKey="region_code"/>
</reference>

9. Realistische Erwartungen an Empfehlungen setzen

  • Empfehlungen aus der Datenbankansicht sind unterstützend und werden kontinuierlich verbessert.
  • Für komplexe Schemata und produktive Anonymisierungsszenarien ist manuelle Nachbearbeitung der erzeugten Modelle zu erwarten.
  • Nutze projektspezifische Review-Kriterien, um PII-Entscheidungen, Relationship-Handling und fachliche Randbedingungen vor dem Rollout zu validieren.
  • Plane iterative Härtungszyklen ein, wenn sich Metadaten oder Quellschema ändern.

Für die vollständige <reference>-Semantik und Mapping-Priorität siehe Datendefinitionsmodell - Fortgeschrittene Elemente.