Adressdublettenprüfung
Geizhals » Forum » Programmierung » Adressdublettenprüfung (38 Beiträge, 606 Mal gelesen) Top-100 | Fresh-100
Du bist nicht angemeldet. [ Login/Registrieren ]
...
Re(3): Adressdublettenprüfung
14.11.2009, 00:58:56
Fuzzy-Logic

Fuzzy-Suche, nicht Fuzzy-Logic!

kennt weder das "ß"/"ss"-Thema. noch die Tatsache, dass "st." das gleiche wie "strasse" sein kann.

[ ] du hast verstanden was eine unscharfe Suche ist.

Wenn du mir aber verrätst, wie du mit Hilfe der Levenshtein-Distanz bereits eine perfekte Adressdubletten-Prüfung realisiert hast, wo die Anwender alle "ahhhh" gesagt haben, bist mein Held

%-) _Ich_ werd dir sicher nix vorbeten, aus 4 Gründen:
1.) wenn du schon nichmtal Fuzzy-Logic von der Fuzzy-Suche unterscheiden kannst, bezweifle ich dass du
2.) schon jemals etwas von unscharfer Suche gehört hast, und daraus schließe ich dass du keine Ahnung von Programmieren hast, damit ist das Projekt schon zum scheitern verurteilt und
3.) wenn ich es dir vorbeten könnte, würd ich es nicht machen, sondern selber machen.
4.) gibt es das schon. z.B. http://www.dataqualityapps.de/dublettenabgleich.html  Exportier mal deine CRM-DB dorthin, probiers aus und staune. Besser als dein angedachter Expertensystem-Krampf ist das Ding auf alle Fälle. Bevor du fragst was ein Expertensystem ist, da du ja keine Ahnung von Programmieren hast: http://de.wikipedia.org/wiki/Expertensystem  (aber du bist ja Beratungsresistent, also Programmier fleißig an deinem Stuß weiter).

ad DQT: a) das gibts von mindestens 100 anderen Firmen auch b) Wird damit bei uns bei jeder Aussendung zwischen 100 und 30.000 Adressen abgegelichen -> Funzt perfekt. c) Kostet sogar in der größten Lizenz weniger als 1 Tag Programmieraufwand ... Na gut ... dein Tag wird sicher nicht so viel kosten... d) also kauf das Teil und leg deine Ambitionen wieder schlafen.





........ Wie kann man nur auf die Idee kommen ein Expertensystem für einen Adressabgleich zu verwenden......

Antworten PM Übersicht Chronologisch Zum Vorgänger
 
Melden nicht möglich
.......
Re(7): Adressdublettenprüfung
14.11.2009, 13:30:33
Also, dies möchte ich bezweifeln. Hast du dir den Algorithmus schon mal näher angesehen?

Nein, wir verwenden das Programm nur, wir entwickeln es nicht :)

Das würde mir aber nicht viel helfen, da ich ja nicht weiß, welche Methode(n) hier tatsächlich angewendet werden.

War auch nur als Beispiel gedacht, um dir zu zeigen wie Leistungsfähig unscharfe Suche ist (Trefferquote und Geschwindigkeit).

Ja - schon klar, ich wollte damit darstellen, dass überflüssige Begriffe einfach das Ergebnis negativ beeinflussen.

Ja tun sie. Ein paar kann man wegfiltern, aber verschwende nicht zu viel Energie damit. Vor allem, wenn wie du sagst, die Felder nichtmal richtig ausgefüllt werden(!)

Aber die Fuzzy-Suche und ein vorgelagerter Filter schließen sich ja auch nicht aus.

Nein tun sie nicht, siehe oben. Aber ich sage dir aus Erfahrung: Verschwende nicht zu viel Energie damit, du glaubst nicht was es alles für Gemeinsamkeiten gibt, die dann doch keine identen Datensätze sind.


Meine Empfehlung für das Projekt (beruht auf einmaliger Erfahrung, da wir eine minimal größere DB entrümpelt habe):
* Säuberung der DB. Ich weiß, da sind 1 bis 2 Mannjahre nötig (eventuell extern vergeben), aber Adressen sind idR Kapital und das sollte dem MD klar sein.
* Regeln und deren konsequente Umsetzung und Kontrolle bei der Neuanlage oder Änderung von Datensätzen (Schulung der MA die im CRM Ändern dürfen).

Und dann kann dein Programm greifen. Wenn die Daten mal halbwegs strukturiert sind, dann ist eine gut eingestellte unscharfe Suche bei kleineren Tipp- und Eingabefehlern zu 100% treffsicher und liefert nur sehr wenige zufällige Ähnlichkeiten.

Und nochwas: Ein Herr Maier muß kein Meier sein, ein KR G. Huber muß nicht gleich einem Dr. G. Huber sein usw. Bei 20.000 Datensätzen wäre ich mit den von dir vorgeschlagenen Vereinfachungen schon sehr vorsichtig.

Und wie gesagt: Die Geschwindigkeit passt. Außerdem ist es sicher kein Problem, wenn nach dem Button "Speichern" das CRM mal für eine Sekunde eine Gedankenpause macht um die Ähnlichkeiten zu den bereits in der DB angelegten Datensätzen zu berechnen - muß ja nicht live während der Eingabe passieren.

Antworten PM Übersicht Chronologisch Zum Vorgänger
 
Melden nicht möglich
 

Dieses Forum ist eine frei zugängliche Diskussionsplattform.
Der Betreiber übernimmt keine Verantwortung für den Inhalt der Beiträge und behält sich das Recht vor, Beiträge mit rechtswidrigem oder anstößigem Inhalt zu löschen.
Datenschutzerklärung