| |||
|
![]()
|
|
|||||||||||||||||||
|
Hi, habt ihr euch mit dem Thema schon mal beschäftigt? Meine Ideen dazu: Die Basis muss mal das Land und die PLZ sein. Es werden also nur Adressen geprüft, wo diese beiden Felder mit der neu anzulegenden exakt übereinstimmen. Dann könnte eine Routine die neue und alle mit dem Land/PLZ übereinstimmenden Adressen "verdichten", in dem eine Liste mit Phrasen durchgearbeitet wird. D.h.: Alle "Dr.,Doktor,Mag.,Fr.,Hr.,Ing., ....." werden mal herausgeschnitten. Weiters: - Alle Doppelbuchstaben werden zu einzelnen. - Alle "ph" werden zu "f" - Alle "ai" und "ey" werden zu "ei" - Alle "ß" werden zu "s" Im Strassenfeld: - Alle "str." und "straße" werden zu "strasse" - Alle "pl." werden zu "platz" - Alle "g." werden zu "gasse" - Alle "/" werden zu blanks Danach: wird jedes Feld jeder Adresse wortweise zerlegt und in eine temporäre Tabelle abgelegt. Zuletzt wird die Anzahl der Treffer zwischen der neuen und jeder bestehenden Adresse aus der temporären Tabelle ermittelt. Die Summe der Treffer ergibt dann das Ranking der Vorschlagsadressen welche verdächtig ähnlich sind. Wobei hier dann auch eine Grenze einzuziehen wäre. Z.Bsp. Adressen unter n Treffer kommen gar nicht in die Liste der möglichen Dubletten. Hättet ihr noch weitere oder gar völlig andere Ideen, wie man halbwegs brauchbar (eine 100%-Lösung gibts es hier eh nicht) die Adressen vergleichen könnte? Gruß! Hawelka |
||||||||||||||||||||
| ||||||||||||||||||||
![]()
Re: Adressdublettenprüfung (Robert Craven am 13.11.2009 18:12:06)
![]()
Re(2): Adressdublettenprüfung (Hawelka am 13.11.2009 19:37:28)
![]()
Re(3): Adressdublettenprüfung (hellbringer am 14.11.2009 12:19:37)
![]()
Re(4): Adressdublettenprüfung (Hawelka am 14.11.2009 12:42:44)
![]()
Re: Adressdublettenprüfung (Paulas_Papa am 13.11.2009 22:31:42)
![]()
Re(2): Adressdublettenprüfung (Hawelka am 13.11.2009 22:50:51)
![]()
Re(3): Adressdublettenprüfung (Paulas_Papa am 14.11.2009 23:42:01)
![]()
Re(4): Adressdublettenprüfung (Hawelka am 15.11.2009 13:52:51)
![]()
Re(3): Adressdublettenprüfung (ruprecht69 am 15.11.2009 01:35:01)
![]()
Re: Adressdublettenprüfung (Capt.Nemo am 13.11.2009 23:45:56)
![]()
Re(2): Adressdublettenprüfung (Hawelka am 14.11.2009 00:25:48)
![]()
Re(3): Adressdublettenprüfung (Capt.Nemo am 14.11.2009 00:58:56)
![]()
|
|
|||||||||||||||||||
|
Mußt ja ned gleich so angrührt sein Deine Idee mit der Fuzzy-Logic .. ähhmm Fuzzy-Suche ist ja auch interessant. Nur für diesen Anwendungsfall einfach ungeeignet. Unabhängig von der Effizienz, wäre diese Methode schlicht zu rechenintensiv. Mein Adressenabgleich passiert ja nicht im Stapel mit bereits vorhandenem Datenmaterial, sondern bereits während der Erfassung um schon im Vorfeld Dubletten zu vermeiden. Der Anwender sollte innerhalb einiger Millisekunden einen Hinweis bekommen, dass Ählichkeiten festgestellt wurden und eine Liste der verdächtigen Adressen erhalten. Und Adressdaten beinhalten nun mal sehr viele Begriffe, welche einen rein mathematischen Ansatz ineffizient machen. Ein Beispiel: A.) Herr Kommerzialrat Dr. Berhard Huber B.) Herr Dr. Bernhard Meier, Kommerzialrat C.) Hr. Dr. Bernhard Huber Ein rein mathematischer Ansatz würde sich für A=B entscheiden, weil hier die größten Ähnlichkeiten vorliegen. Wendet man aber einen Filter an, welcher alle adresstypischen Phrasen wie "Dr., Kommerzialrat, Herr, Hr. ...." herausnimmt, bekommt man eine andere Qualität an Vergleichsdaten. Mit diesen Restdaten könnte man nun eine Ähnlichkeitssuche durchführen. Aber selbst dann bietet sich eine phonetische Suche eher an, als eine rein stringorientierte. Die "Kölner Phonetik" scheint hier das deutschsprachige Gegenstück zum "Soundex" zu sein. |
||||||||||||||||||||
| ||||||||||||||||||||
![]()
Re(5): Adressdublettenprüfung (-Transformer2K- am 14.11.2009 11:29:51)
![]()
Re(6): Adressdublettenprüfung (Hawelka am 14.11.2009 11:34:16)
![]()
Re(7): Adressdublettenprüfung (-Transformer2K- am 14.11.2009 11:36:32)
![]()
Re(8): Adressdublettenprüfung (Hawelka am 14.11.2009 11:38:47)
![]()
Re(9): Adressdublettenprüfung (-Transformer2K- am 14.11.2009 12:55:31)
![]()
Re(5): Adressdublettenprüfung (Capt.Nemo am 14.11.2009 12:13:58)
![]()
Re(6): Adressdublettenprüfung (Hawelka am 14.11.2009 12:41:42)
![]()
Re(7): Adressdublettenprüfung (Capt.Nemo am 14.11.2009 13:30:33)
![]()
Re: Adressdublettenprüfung (-Transformer2K- am 14.11.2009 10:37:09)
![]()
Re(2): Adressdublettenprüfung (Hawelka am 14.11.2009 11:18:40)
![]()
Re(3): Adressdublettenprüfung (-Transformer2K- am 14.11.2009 11:28:26)
![]()
Re(4): Adressdublettenprüfung (Hawelka am 14.11.2009 11:31:19)
![]()
Re(5): Adressdublettenprüfung (-Transformer2K- am 14.11.2009 11:31:47)
![]()
Re: Adressdublettenprüfung (j. am 17.11.2009 15:43:50)
![]()
Re(2): Adressdublettenprüfung (Xane am 18.11.2009 01:51:44)
![]()
Re(3): Adressdublettenprüfung (Hawelka am 18.11.2009 16:51:24)
![]()
Re: Adressdublettenprüfung (shodan am 18.11.2009 14:00:01)
![]()
Re(2): Adressdublettenprüfung (Hawelka am 18.11.2009 17:01:36)
![]()
Re: Adressdublettenprüfung (dasistmeinnick11+ am 19.11.2009 13:35:44)
Dieses Forum ist eine frei zugängliche Diskussionsplattform.
Der Betreiber übernimmt keine Verantwortung für den Inhalt der Beiträge und behält sich das Recht vor, Beiträge mit rechtswidrigem oder anstößigem Inhalt zu löschen.
Auf ABGB §1330 Abs. 2 wird ausdrücklich hingewiesen.