Brauche Ideen für "Doubletten"-Suche
- Zvoni
- Beiträge: 559
- Registriert: Fr 5. Jul 2024, 08:26
- OS, Lazarus, FPC: Windoof 10 Pro (Laz/FPC fixes)
- CPU-Target: 64Bit
- Wohnort: BW
Brauche Ideen für "Doubletten"-Suche
Mahlzeit,
Hintergrund: Anstehende Migration auf ein neues ERP-System Ende 2027
Aufgabe: Im derzeitigen ERP etwaige vorhandene "Doubletten" aufspüren und ggfs. korrigieren.
Erläuterung: Ich bin im System-Team für unsere Stammdaten, und wir haben die Aufgabe, unsere Stammdaten soweit zu prüfen, ob Doubletten vorhanden sind.
Das betrifft insbesondere unseren Kundenstamm, weil hier auch rechtl. bzw. steuerliche Konsequenzen mit dranhängen.
Topographie aktuelles ERP: Firma mit mehreren Niederlassungen. Jede Niederlassung ist eigener Mandant und "verwaltet" ihre Kunden selbst
Topographie neues ERP: Es gibt nur noch eine Firma (Niederlassungen sind dann quasi nur noch Auslieferlager).
Wie so oft im Leben kann es natürlich zu Doubletten kommen, weil mehrere Niederlassungen denselben Kunden besuchen, und gegenseitig nichts von einander wissen
(Ja, sollte nicht vorkommen. Kommt aber vor)
Ich will mir eine Strategie zurecht legen, diese Doubletten aufspüren zu können, und wollte mal euren Wissens-Schatz anzapfen (Vielleicht musste ja jemand von euch in der Vergangenheit schon mal was ähnliches machen)
Bis jetzt bin ich bei folgenden Ideen angekommen:
1) Vergleich Umsatz-Steuer-ID ist gleich und Kundennummern sind ungleich
Ist natürlich das einfachste, hat jedoch folgende Haken:
Funktioniert natürlich nur für deutsche Kunden, da ich die UstID für ausländische Kunden nicht brauche, da ja keine Umsatzsteuer gegenüber deutschem Finanzamt fällig wird.
Alle verfügbaren "Prüfseiten" im Internet, geben nur zurück, dass die UStID gültig ist im Sinne des Berechnungsalgorithmus bzw. dass sie vergeben ist, aber NICHT wer sich dahinter verbirgt (Datenschutz!)
Thema: Zahlendreher u.ä.
2) Vergleich der Telefon-Nummern und ähnlicher Informationen sofern vorhanden. Würde ggfs. aus dem zugehörigen Personenstamm gezogen
3) Vergleich der notwendigen Adressinformationen (Name, Strasse, PLZ, Ort)
Hier wirds jetzt spannend: Weil so viele Mitarbeiter es gibt, so viele Schreibweisen gibt es --> der Klassiker "Str." vs. "Strasse" u.ä.
Ganz klar: Gross-/Kleinschreibung wird ignoriert
Ich dachte auch an Levenshtein, natürlich dann mit einem zu definierenden Schwellenwert.
Da müsste ich aber de facto einen "Kreuztabellen"-Vergleich machen (jeden mit jedem vergleichen)
Irgendwelche Ideen?
Meinungen?
Hintergrund: Anstehende Migration auf ein neues ERP-System Ende 2027
Aufgabe: Im derzeitigen ERP etwaige vorhandene "Doubletten" aufspüren und ggfs. korrigieren.
Erläuterung: Ich bin im System-Team für unsere Stammdaten, und wir haben die Aufgabe, unsere Stammdaten soweit zu prüfen, ob Doubletten vorhanden sind.
Das betrifft insbesondere unseren Kundenstamm, weil hier auch rechtl. bzw. steuerliche Konsequenzen mit dranhängen.
Topographie aktuelles ERP: Firma mit mehreren Niederlassungen. Jede Niederlassung ist eigener Mandant und "verwaltet" ihre Kunden selbst
Topographie neues ERP: Es gibt nur noch eine Firma (Niederlassungen sind dann quasi nur noch Auslieferlager).
Wie so oft im Leben kann es natürlich zu Doubletten kommen, weil mehrere Niederlassungen denselben Kunden besuchen, und gegenseitig nichts von einander wissen
(Ja, sollte nicht vorkommen. Kommt aber vor)
Ich will mir eine Strategie zurecht legen, diese Doubletten aufspüren zu können, und wollte mal euren Wissens-Schatz anzapfen (Vielleicht musste ja jemand von euch in der Vergangenheit schon mal was ähnliches machen)
Bis jetzt bin ich bei folgenden Ideen angekommen:
1) Vergleich Umsatz-Steuer-ID ist gleich und Kundennummern sind ungleich
Ist natürlich das einfachste, hat jedoch folgende Haken:
Funktioniert natürlich nur für deutsche Kunden, da ich die UstID für ausländische Kunden nicht brauche, da ja keine Umsatzsteuer gegenüber deutschem Finanzamt fällig wird.
Alle verfügbaren "Prüfseiten" im Internet, geben nur zurück, dass die UStID gültig ist im Sinne des Berechnungsalgorithmus bzw. dass sie vergeben ist, aber NICHT wer sich dahinter verbirgt (Datenschutz!)
Thema: Zahlendreher u.ä.
2) Vergleich der Telefon-Nummern und ähnlicher Informationen sofern vorhanden. Würde ggfs. aus dem zugehörigen Personenstamm gezogen
3) Vergleich der notwendigen Adressinformationen (Name, Strasse, PLZ, Ort)
Hier wirds jetzt spannend: Weil so viele Mitarbeiter es gibt, so viele Schreibweisen gibt es --> der Klassiker "Str." vs. "Strasse" u.ä.
Ganz klar: Gross-/Kleinschreibung wird ignoriert
Ich dachte auch an Levenshtein, natürlich dann mit einem zu definierenden Schwellenwert.
Da müsste ich aber de facto einen "Kreuztabellen"-Vergleich machen (jeden mit jedem vergleichen)
Irgendwelche Ideen?
Meinungen?
Ein System sie alle zu knechten, ein Code sie alle zu finden,
Eine IDE sie ins Dunkel zu treiben, und an das Framework ewig zu binden,
Im Lande Redmond, wo die Windows drohn.
Eine IDE sie ins Dunkel zu treiben, und an das Framework ewig zu binden,
Im Lande Redmond, wo die Windows drohn.
- Jorg3000
- Lazarusforum e. V.
- Beiträge: 437
- Registriert: So 10. Okt 2021, 10:24
- OS, Lazarus, FPC: Win64
- Wohnort: NRW
Re: Brauche Ideen für "Doubletten"-Suche
Mahlzeit!
Falls Land und PLZ vorhanden sind, würde ich die Städtenamen nicht vergleichen, denn bei manchen Städten gibt es mehrere stark unterschiedliche Schreibweisen,
z.B. Homburg, Bad Homburg , Bad Homburg vor der Höhe, Bad Homburg v. d. Höhe (früher amtlich mit Abkürzungspunkten).
Und manchmal sind Ortsteile mit angegeben oder nicht, oder sogar nur der Ortsteil anstelle der Stadt.
Bei Straßennamen kann man vorab alle Leerzeichen und Bindestriche entfernen, und natürlich alle "straße" und "strasse" und am Ende "str" zu "str." vereinheitlichen.
Mit der Levenshtein-Distanz habe ich schon mal gearbeitet, das funktionierte ganz gut.
Aber bei Firmenübernahmen und Namensänderungen nützt dir das wenig, auch nicht bei Umfirmierungen, z.B. GmbH zu GmbH & Co. KG.
Grüße, Jörg
Falls Land und PLZ vorhanden sind, würde ich die Städtenamen nicht vergleichen, denn bei manchen Städten gibt es mehrere stark unterschiedliche Schreibweisen,
z.B. Homburg, Bad Homburg , Bad Homburg vor der Höhe, Bad Homburg v. d. Höhe (früher amtlich mit Abkürzungspunkten).
Und manchmal sind Ortsteile mit angegeben oder nicht, oder sogar nur der Ortsteil anstelle der Stadt.
Bei Straßennamen kann man vorab alle Leerzeichen und Bindestriche entfernen, und natürlich alle "straße" und "strasse" und am Ende "str" zu "str." vereinheitlichen.
Mit der Levenshtein-Distanz habe ich schon mal gearbeitet, das funktionierte ganz gut.
Aber bei Firmenübernahmen und Namensänderungen nützt dir das wenig, auch nicht bei Umfirmierungen, z.B. GmbH zu GmbH & Co. KG.
Grüße, Jörg
Zuletzt geändert von Jorg3000 am Mi 25. Feb 2026, 11:53, insgesamt 2-mal geändert.
- m.fuchs
- Lazarusforum e. V.
- Beiträge: 2879
- Registriert: Fr 22. Sep 2006, 19:32
- OS, Lazarus, FPC: Winux (Lazarus 2.0.10, FPC 3.2.0)
- CPU-Target: x86, x64, arm
- Wohnort: Berlin
- Kontaktdaten:
Re: Brauche Ideen für "Doubletten"-Suche
Ähm, wieso das denn? Wenn du eine Rechnung für ein nicht-deutsches EU-Unternehmen ausstellst und dabei keine Umsatzsteuer berechnest und abführst, dann musst du eine Überprüfung der Unternehmereigenschaft des Vertragspartners durch Prüfung der USt-Id.Nr. vorgenommen haben. Also solltest du die auch tunlichst speichern.Zvoni hat geschrieben: Mi 25. Feb 2026, 11:04 Funktioniert natürlich nur für deutsche Kunden, da ich die UstID für ausländische Kunden nicht brauche, da ja keine Umsatzsteuer gegenüber deutschem Finanzamt fällig wird.
0118999881999119725-3
Software, Bibliotheken, Vorträge und mehr: https://www.ypa-software.de
Software, Bibliotheken, Vorträge und mehr: https://www.ypa-software.de
- Zvoni
- Beiträge: 559
- Registriert: Fr 5. Jul 2024, 08:26
- OS, Lazarus, FPC: Windoof 10 Pro (Laz/FPC fixes)
- CPU-Target: 64Bit
- Wohnort: BW
Re: Brauche Ideen für "Doubletten"-Suche
Argg......hast recht....Ich hatte mir als Beispiel in unserer Datenbank genau den Kunden in der Schweiz angeschaut....m.fuchs hat geschrieben: Mi 25. Feb 2026, 11:49Ähm, wieso das denn? Wenn du eine Rechnung für ein nicht-deutsches EU-Unternehmen ausstellst und dabei keine Umsatzsteuer berechnest und abführst, dann musst du eine Überprüfung der Unternehmereigenschaft des Vertragspartners durch Prüfung der USt-Id.Nr. vorgenommen haben. Also solltest du die auch tunlichst speichern.Zvoni hat geschrieben: Mi 25. Feb 2026, 11:04 Funktioniert natürlich nur für deutsche Kunden, da ich die UstID für ausländische Kunden nicht brauche, da ja keine Umsatzsteuer gegenüber deutschem Finanzamt fällig wird.
Ein System sie alle zu knechten, ein Code sie alle zu finden,
Eine IDE sie ins Dunkel zu treiben, und an das Framework ewig zu binden,
Im Lande Redmond, wo die Windows drohn.
Eine IDE sie ins Dunkel zu treiben, und an das Framework ewig zu binden,
Im Lande Redmond, wo die Windows drohn.
- Zvoni
- Beiträge: 559
- Registriert: Fr 5. Jul 2024, 08:26
- OS, Lazarus, FPC: Windoof 10 Pro (Laz/FPC fixes)
- CPU-Target: 64Bit
- Wohnort: BW
Re: Brauche Ideen für "Doubletten"-Suche
Hmmm... ja, korrekt. Die Städtenamen sind ein Fass ohne Boden.Jorg3000 hat geschrieben: Mi 25. Feb 2026, 11:47 Mahlzeit!
Falls Land und PLZ vorhanden sind, würde ich die Städtenamen nicht vergleichen, denn bei manchen Städten gibt es mehrere stark unterschiedliche Schreibweisen,
z.B. Homburg, Bad Homburg , Bad Homburg vor der Höhe, Bad Homburg v. d. Höhe (früher amtlich mit Abkürzungspunkten).
Und manchmal sind Ortsteile mit angegeben oder nicht, oder sogar nur der Ortsteil anstelle der Stadt.
Bei Straßennamen kann man vorab alle Leerzeichen und Bindestriche entfernen, und natürlich alle "straße" und "strasse" und am Ende "str" zu "str." vereinheitlichen.
Mit der Levenshtein-Distanz habe ich schon mal gearbeitet, das funktionierte ganz gut.
Aber bei Firmenübernahmen und Namensänderungen nützt dir das wenig, auch nicht bei Umfirmierungen, z.B. GmbH zu GmbH & Co. KG.
Grüße, Jörg
Aber dann nur auf die PLZ achten ist ne Idee.
Das mit dem "Vereinheitlichen" ist mir klar. hatte sogar schon überlegt, "GmbH" und den Kram zu ignorieren, und stumpf auf den Namen zu gehen.
Hintergrund ist der, dass mein Team dann eben "Arbeit" an die User herausgeben soll: "Schaut euch das mal an, und korrigiert das ggfs."
Lieber einen Datensatz zu viel, als zu wenig....
Ein System sie alle zu knechten, ein Code sie alle zu finden,
Eine IDE sie ins Dunkel zu treiben, und an das Framework ewig zu binden,
Im Lande Redmond, wo die Windows drohn.
Eine IDE sie ins Dunkel zu treiben, und an das Framework ewig zu binden,
Im Lande Redmond, wo die Windows drohn.
-
charlytango
- Beiträge: 1232
- Registriert: Sa 12. Sep 2015, 12:10
- OS, Lazarus, FPC: Laz stable (2.2.6, 3.x)
- CPU-Target: Win 32/64, Linux64
- Wohnort: Wien
Re: Brauche Ideen für "Doubletten"-Suche
Das sehe ich nciht soZvoni hat geschrieben: Mi 25. Feb 2026, 11:04 Alle verfügbaren "Prüfseiten" im Internet, geben nur zurück, dass die UStID gültig ist im Sinne des Berechnungsalgorithmus bzw. dass sie vergeben ist, aber NICHT wer sich dahinter verbirgt (Datenschutz!)
ich habe hier versucht meine eigene UID einzugeben und bekam ganz normal meinen Namein und die dazugehörende Adresse.
und dazu brauchst du nur die mit Stern markierten Felder auszufüllen.
Das klappt auch mit UIDs im EU-Ausland.
Ein kleiner Grabber mit einer UID-Liste aus deinem Unternehmen und du hast die aktuellen Daten samt Adresse zum Abgleich. Damit erschlägst du schon alles was eine UID hat.
Vorsicht - bei Firmenübernahmen, Namenänderungen etc bleibt oft die UID gleich aber der Firmenwortlaut ändert sich.
Also ist die UID nicht gleich falsch.
Wenn du deine DB gegen eine andere Datenquelle abgleichen willst (zB Herold oder Creditreform et al) warne ich vor dass diese ach so teuer verkauften Daten meistens Schrott sind. Zumindetsens in Österreich (da habe ich mich einige Jahre damit herumschlagen dürfen -- hätte da noch Kontakte, aber auch das kostet) und ich gehe davon aus dass es in DE nicht besser ist.
Man kann in AT auch direkt das Firmenbuch abfragen, das kostet allerdings geld.
Deswegen haben sich einige zusammengetan und haben ein offenes Firmenbuch erstellt das sich aus den Daten des geschlossenen Firmenbuches bedient. (fragt mich nicht wie) --> https://openfirmenbuch.at/
Möglicherweise gibt es in DE ähnliche Strukturen.
Abgleich von Adressen ist schonmal eine Katastrophe weil viele DB-Entwickler keine Ahnung haben wie eine Adresse zum Abgleich aufgebaut werden muss.
PLZ, Ort, Strasse und Hausnummer in jedem Fall in je ein eigenes Feld --- die üblichen Stiege/Stock/Tür entweder getrennt oder gemeinsam. Dann hat man zumindest chancen das angehen zu können.
Falls das (noch) nicht so vorliegt, würde ich zuerst die Adressen sauber auftrennen, um danach Korrekturen mit den amtlichen Straßenkatalog durchzuführen. Die Straßen und Ortsnamen standardisieren.
In meinen alten Programmen lag da immer ein Katalog dahinter damit die Namen von Haus aus einheitlich sind.
Übersetzungstabellen helfen da sehr.
Im wesentlichen ist der Job aber geprägt durch viel Handarbeit um saubere Daten zu bekommen die man dann anschließend per Programm vergleichen zu können.
Re: Brauche Ideen für "Doubletten"-Suche
Ich verstehe wirklich rein gar nichts von solchen Dingen, aber die Schweiz hat auch solche UIDs.Zvoni hat geschrieben: Mi 25. Feb 2026, 12:04 Argg......hast recht....Ich hatte mir als Beispiel in unserer Datenbank genau den Kunden in der Schweiz angeschaut....
Habt ihr die auch erfasst?
https://www.bfs.admin.ch/bfs/de/home/re ... ummer.html
https://www.uid.admin.ch/Search.aspx?lang=de
- Niesi
- Lazarusforum e. V.
- Beiträge: 700
- Registriert: So 26. Jun 2016, 19:44
- OS, Lazarus, FPC: Linux Mint Cinnamon, Laz 4.5 Fpc 3.2.3 und allerlei mit FpcUpDeLuxe
- Kontaktdaten:
Re: Brauche Ideen für "Doubletten"-Suche
-charlytango hat geschrieben: Do 26. Feb 2026, 14:50
...
Das sehe ich nciht so
ich habe hier versucht meine eigene UID einzugeben und bekam ganz normal meinen Namein und die dazugehörende Adresse.
...
Hab' ich auch mal gemacht, bin ja neugierig. Kam aber nur, dass die Nummer gültig ist - kein Name, keine Adresse ...
Wissen ist das einzige Gut, das sich vermehrt, wenn es geteilt wird ...
-
Johannes55
- Beiträge: 5
- Registriert: Mo 23. Feb 2026, 17:20
Re: Brauche Ideen für "Doubletten"-Suche
Hallo Zvoni.
Das habe ich vor langer Zeit mal gemacht, als die neuen PLZ kamen.
Bei ähnlichen Schreibweisen wäre SQL und Soundex dein Freund.
Ist die Ustid das einzige vergleichbare Feld?
Gibt es Email oder Iban?
Das habe ich vor langer Zeit mal gemacht, als die neuen PLZ kamen.
Bei ähnlichen Schreibweisen wäre SQL und Soundex dein Freund.
Ist die Ustid das einzige vergleichbare Feld?
Gibt es Email oder Iban?
-
charlytango
- Beiträge: 1232
- Registriert: Sa 12. Sep 2015, 12:10
- OS, Lazarus, FPC: Laz stable (2.2.6, 3.x)
- CPU-Target: Win 32/64, Linux64
- Wohnort: Wien
Re: Brauche Ideen für "Doubletten"-Suche
Keine Ahnung, aber bei mir geht esNiesi hat geschrieben: Do 26. Feb 2026, 16:46 Hab' ich auch mal gemacht, bin ja neugierig. Kam aber nur, dass die Nummer gültig ist - kein Name, keine Adresse ...