Zum Inhalt

Domain Generatoren

DATAMIMIC Domains sind ein Mittel zur Definition, Bündelung und Wiederverwendung von domänenspezifischer Datengenerierung, z.B. für persönliche Daten, Adressen, Internet, Bankwesen, Telekommunikation. Sie können auf spezifische Sprachen lokalisiert und zu hierarchischen Datensätzen gruppiert werden, z.B. für Kontinente, Länder und Regionen.

DATAMIMIC enthält mehrere Domains, die eine einfache Implementierung spezifischer Datengenerierung haben. Wenn Du weitere Domains benötigst, freuen wir uns sehr über Dein Feedback und Deine Beiträge.

Die folgenden Domains sind enthalten:

  • person: Daten, die sich auf eine Person beziehen

  • address: Daten, die sich auf die Kontaktaufnahme mit einer Person per Post beziehen

  • organization: Organisationsdaten

  • finance: Finanzdaten

  • net: Internet- und netzwerkbezogene Daten

  • product: Produktbezogene Daten

  • br und us: Länderspezifische Daten

Zusätzlich beinhaltet DATAMIMIC eine einfache Möglichkeit, die unten aufgeführte FAKER-Bibliothek für zusätzliche Datensätze zu nutzen.

Personbezogene Generatoren

Die Personendomain hat drei Hauptkomponenten:

  • Person: Generiert Person-Entitäten

  • AcademicTitleGenerator: Generiert akademische Titel Der Generator kann mit academic_title_quota konfiguriert werden.

  • NobilityTitleGenerator: Generiert Adelstitel Der Generator kann mit noble_quota konfiguriert werden.

  • GivenNameGenerator: Generiert Vornamen

  • FamilyNameGenerator: Generiert Familiennamen

  • BirthDateGenerator: Generiert Geburtsdaten

  • GenderGenerator: Generiert Geschlechtswerte. Das generierte Geschlecht kann einer der Werte MALE, FEMALE, OTHER sein. Der Generator wird mit den Eigenschaften female_quota, other_gender_quota konfiguriert. female_quota hat die höchste Priorität, dann other_gender_quota.

  • EmailAddressGenerator: Generiert E-Mail-Adressen

Person-Entität

Erstellt Person-Entitäten, die für die prototypbasierte Datengenerierung verwendet werden können. Sie kann mit der Datensatz- und Lokaleigenschaft konfiguriert werden. Die generierte Person-Entität weist die Eigenschaften salutation, title, given_name, family_name (vier feldabhängige Datensätze), gender, birthdate, age, email auf. Wenn die gewählte Datensatzdefinition Namensgewichte bereitstellt, generiert DATAMIMIC Personennamen entsprechend ihrer statistischen Wahrscheinlichkeit. Natürlich sind Geschlecht, Anrede und Vorname konsistent.

Du kannst die Person-Entität so verwenden:

1
2
3
4
5
<generate name="user" count="5" target="CSV">
  <variable name="person" entity="Person(min_age=20, max_age=45, female_quota=0.5)" dataset="FR"/>
  <key name="salutation" script="person.salutation"/>
  <key name="name" script="f'{person.given_name} {person.family_name}'"/>
</generate>

um eine Ausgabe ähnlich dieser zu erhalten:

1
2
3
4
5
6
salutation|name
Mme|Claude Bernard
Mme|Jeannine Lefebvre
M.|Robert Bernard
M.|Roger Morel
Mme|Dominique Dubois

Die Person-Entität hat die folgenden Datenfelder:

Eigenschaftsname Typ Eigenschaftsbeschreibung
salutation String Anrede (z.B. Herr/Frau)
academic_title String Akademischer Titel (z.B. Dr.)
given_name String Vorname ('Vorname' in westlichen Ländern)
family_name String Familienname ('Nachname' in westlichen Ländern)
gender Gender Geschlecht (männlich, weiblich oder anderes)
birthdate Date Geburtsdatum
age Integer aktuelles Alter
email String E-Mail-Adresse
nobility_title String Adelstitel (z.B. Baron/Baronin)

Eigenschaften der Person-Entität

Die Person-Entität kann mit mehreren Eigenschaften konfiguriert werden:

Eigenschaft Beschreibung Standardwert
dataset Entweder ein Regionsname oder der Zwei-Buchstaben-ISO-Code eines Landes, z.B. US für die USA. Das Standardland des Benutzers
min_age Das Mindestalter der generierten Personen 15
max_age Das Höchstalter der generierten Personen 105
female_quota Der Anteil der generierten Frauen (1 → 100%) 0.49
other_gender_quota Der Anteil der generierten anderen Geschlechter (1 → 100%) 0.02
noble_quota Die Rate der generierten Adelstitel (1 → 100%) 0.001
academic_title_quota Die Rate der generierten akademischen Titel (1 → 100%) 0.5

Unterstützte Länder

Land Code Bemerkungen
Österreich AT 120 häufigste Vornamen mit absolutem Gewicht, 40 häufigste Familiennamen mit absolutem Gewicht
Australien AU 40 häufigste Vornamen (ungewichtet), 20 häufigste Familiennamen mit absolutem Gewicht
Belgien BE 38 häufigste Vornamen (ungewichtet), 15 häufigste Familiennamen mit absolutem Gewicht
Brasilien BR 100 häufigste Vornamen (ungewichtet), 29 häufigste Familiennamen (ungewichtet)
Kanada CA 80 häufigste Vornamen (ungewichtet), 20 häufigste Familiennamen (ungewichtet). Keine Kopplung zwischen Vorname-Locale und Familienname-Locale
Schweiz CH 30 häufigste Vornamen mit absolutem Gewicht, 20 häufigste Familiennamen mit absolutem Gewicht
China CN Chinesische Schriftzeichen. 46 häufigste Vornamen (ungewichtet), 106 häufigste Familiennamen mit absolutem Gewicht
Tschechische Republik CZ 20 häufigste Vornamen mit absolutem Gewicht, 20 häufigste Familiennamen mit absolutem Gewicht. Weibliche Nachnamen werden unterstützt.
Deutschland DE 1998 häufigste Vornamen mit absolutem Gewicht, 3421 häufigste Familiennamen mit absolutem Gewicht
Spanien ES 40 häufigste Vornamen (ungewichtet), 40 häufigste Familiennamen mit absolutem Gewicht
Finnland FI 785 häufigste Vornamen (ungewichtet), 448 häufigste Familiennamen (ungewichtet)
Frankreich FR 100 häufigste Vornamen (ungewichtet), 30 häufigste Familiennamen mit relativer Gewichtung
Irland IE 41 häufigste Vornamen (ungewichtet), 26 häufigste Familiennamen (ungewichtet)
Israel IL 264 Vornamen (ungewichtet), 30 häufigste Familiennamen mit relativer Gewichtung
Indien IN 155 häufigste Vornamen (ungewichtet), 50 häufigste Familiennamen (ungewichtet)
Italien IT 60 häufigste Vornamen (ungewichtet), 20 häufigste Familiennamen (ungewichtet)
Japan JP Kanji-Schriftzeichen. 109 häufigste Vornamen (ungewichtet), 50 häufigste Familiennamen mit absolutem Gewicht
Republik Korea KR Hangul-Schriftzeichen. 91 häufigste Vornamen (ungewichtet), 182 häufigste Familiennamen mit absolutem Gewicht
Niederlande NL 3228 Vornamen (ungewichtet), 10 häufigste Familiennamen mit absolutem Gewicht
Norwegen NO 300 häufigste Vornamen (ungewichtet), 100 häufigste Familiennamen mit absolutem Gewicht
Neuseeland NZ 20 häufigste Vornamen (ungewichtet), 8 häufigste Familiennamen (ungewichtet)
Polen PL 67 häufigste Vornamen mit absolutem Gewicht, 20.000 häufigste Familiennamen mit absolutem Gewicht. Weibliche Nachnamen werden unterstützt.
Russland RU Kyrillische Schriftzeichen. 33 häufigste Vornamen mit relativer Gewichtung, 20 häufigste Familiennamen mit relativer Gewichtung. Weibliche Nachnamen werden unterstützt.
Schweden SE 779 Vornamen (ungewichtet), 22 häufigste Familiennamen mit relativer Gewichtung
Slowenien SI 400 häufigste Vornamen mit relativer Gewichtung, 200 häufigste Familiennamen mit relativer Gewichtung
Slowakei SK 20 häufigste Vornamen mit relativer Gewichtung, 22 häufigste Familiennamen mit relativer Gewichtung
Türkei TR 1077 Vornamen (ungewichtet), 37 Familiennamen (ungewichtet)
Ukraine UA 48 häufigste Vornamen (ungewichtet), 20 häufigste Familiennamen (ungewichtet)
Vereinigtes Königreich GB 20 häufigste Vornamen (ungewichtet), 25 häufigste Familiennamen (ungewichtet)
USA US 600 häufigste Vornamen und 1000 häufigste Familiennamen, beide mit absolutem Gewicht