Ich habe mir die Beine wachsen lassen. – Waren sie vorher kürzer?

Hallo Herr Martin,

Es geht um die Extrahierung von Datums- und Adressinformationen aus einem Bemerkungsfeld im Rahmen der Datenmigration.

Die Ausgangsinformationen stehen einer Spalte.

Diese Felder enthalten Stichtage und Adressen (Straße, Hausnummer, Zusatz).

Zum Stichtag:

  • Es gilt folgende Grundregel:
    Falls im Bemerkungsfeld ein Stichtag aufgeführt ist,
    dann soll dieser als Stichtag übernommen werden
    ansonsten gilt das Ausgabedatum als Stichtag
  • Der Stichtag ist mit unterschiedlichsten Schreibweisen im Bemerkungsfeld versteckt.
    Beispiele dazu:
    • (Stichtag 18.07.2014)
    • ST 05.08.2021
    • ST: 18.02.2022
    • (St. 08.01.2018)
    • (St. 01.09.16)
    • (31.08.16)
    • St.08.10.2015
    • StT 24.6.14
    • St. 01-2017
    • St. 10/2015
    • St.04/2005
    • (St. 24.04.2014+16.07.2015)
    • ST 05.06.1990 u. 11.12.1991
    • 2 Stichtage zus.gefasst 17.06.2020 + 06.10.2021
  • Aufgabe ist:
    • Unterschiedliche Schreibweisen für den Stichtag herauszufinden und zu berücksichtigen
    • Nach obiger Grundregel die Stichtage als Datum zu extrahieren
    • Weitere ggfs. notwendige Regeln abzuklären und zu ergänzen:
      • Falls reine Monatsangabe, dann den 1. als Tag verwenden
      • Falls zwei Stichtage angegeben, diese markieren, müssen manuell geklärt werden
        (bei zwei Datensätzen Stichtage aufteilen, bei einem Datensatz wahrscheinlich erster Stichtag)

Zur Adresse:

  • Es gilt folgende Grundregel:
    Die Adresse aus dem Bemerkungsfeld soll extrahiert
    und in Straße, Hausnummer und Zusatz getrennt übernommen werden
  • Einschränkungen:
    • Es gibt einzelne Datensätze zu auswärtigen Gemeinden oder zu speziellen Portfolioobjekten,
      für die keine Adresse zu extrahieren sind. Diese sind in der Spalte „Keine Adresse“ gekennzeichnet.
    • Im Migrationsskript wurden für viele Datensätze die Adresse bereits extrahiert
      und zwar für die Adressen, deren Straßennamen bekannt waren.
      Diese sind in den Spalten REFERENZOBJEKTADRESSE_STRASSE, …_HAUSNUMMER und …_ZUSATZ entsprechend gefüllt
      und müssen nicht mehr berücksichtigt werden.
  • Die Adresse steht, sofern vorhanden, am Anfang des Bemerkungsfeldes.
    Falls keine exakte Adresse vorhanden war, steht vor dem Straßennamen teilweise „Nähe“ oder „am“, „an der“, …
    oder auch zwei Straßennamen, an dem sich ein Grundstück befindet
    Beispiele für Adressen:
  • Adenauerallee
  • Ackerweg
  • Alte Poststrasse
  • Alt-Moabit
  • Am Borsigturm
  • Augsburger Straße
  • Augsburger Strasse
  • Avenue d’Ouchy
  • Clius
  • Grosse Praesidenten Str.
  • Im Astenfeld
  • Inge Beisheim Platz
  • Kammelenbergstrasse
  • Aufgabe ist:
    • Adressen zu erkennen und zu extrahieren gemäß obiger Grundregel inkl. der Einschränkungen
    • Weitere ggfs. notwendige Regeln abzuklären und zu ergänzen:
      • Bezugsangaben wie Nähe, am usw. mit Straßennamen extrahieren, sofern keine Hausnummer vorhanden

Falls zwei Adressen/Straßen vorhanden, keine extrahieren

Meine Antwort: Uff! So etwas können nur Menschen eintragen! Ich hoffe, dass bei der nächsten Dateneingabe die Daten besser werden.

(Randbemerkung: Beim Screenshot handelt es sich um rein fiktive Daten!)

Das beste Mittel gegen eine Überdosis Realität ist Humor.

Gestern schrieb Holger, dass „aufgrund der Datumserkennung jede Menge Gene falsch geschrieben werden? 1MRZ und so Zeugs…“. Ich schaue nach:

1MRZ ist ein „Crystal structure of a flavin binding protein from Thermotoga Maritima, TM379″. Aha. Schnell eine Suchmaschine angeworfen. Auch

3JAN
2FEB
5FEB
1MRZ
2MRZ
4MRZ
1JUN
3JUN
4JUN
5JUN
1JUL
2JUL
3JUL
4JUL
2AUG
3AUG
1SEP
1OKT
2OKT
3OKT
4OKT
2NOV
3NOV
4NOV
2DEZ
3DEZ
4DEZ
5DEZ

werden gefunden. Kopiert man diese Liste nach Excel erhält man:

Holger kommentierte: „Kein Wunder, daß Excel im Labor so beliebt ist, was? Excel ist ein ganzes Chemikalienlager“

Du bist erst dann wirklich erfolgreich wenn Deine Schwiegermutter das sagt.

Unglaublich: gestern (12.07.2017) fand sich in der Süddeutschen Zeitung auf Seite 8 folgendes Diagramm:

In jeder Excel-Schulung predige ich, dass Datumsangaben, die nicht äquidistant sind, nicht auf einem Liniendiagramm mit gleichem Abstand abgetragen werden dürfen. Man muss ein Punktdiagramm (ein XY-Diagramm) verwenden, um den unterschiedlichen Abständen Rechnung zu genügen. Sonst wird das Diagramm und seine Aussage verzerrt.

Haben die nicht aufgepasst (schlampig) oder wollen die bewusst Daten verdrehen (böswillig)?