| |||
|
![]()
|
|
|||||||||||||||||||
|
Hi, habt ihr euch mit dem Thema schon mal beschäftigt? Meine Ideen dazu: Die Basis muss mal das Land und die PLZ sein. Es werden also nur Adressen geprüft, wo diese beiden Felder mit der neu anzulegenden exakt übereinstimmen. Dann könnte eine Routine die neue und alle mit dem Land/PLZ übereinstimmenden Adressen "verdichten", in dem eine Liste mit Phrasen durchgearbeitet wird. D.h.: Alle "Dr.,Doktor,Mag.,Fr.,Hr.,Ing., ....." werden mal herausgeschnitten. Weiters: - Alle Doppelbuchstaben werden zu einzelnen. - Alle "ph" werden zu "f" - Alle "ai" und "ey" werden zu "ei" - Alle "ß" werden zu "s" Im Strassenfeld: - Alle "str." und "straße" werden zu "strasse" - Alle "pl." werden zu "platz" - Alle "g." werden zu "gasse" - Alle "/" werden zu blanks Danach: wird jedes Feld jeder Adresse wortweise zerlegt und in eine temporäre Tabelle abgelegt. Zuletzt wird die Anzahl der Treffer zwischen der neuen und jeder bestehenden Adresse aus der temporären Tabelle ermittelt. Die Summe der Treffer ergibt dann das Ranking der Vorschlagsadressen welche verdächtig ähnlich sind. Wobei hier dann auch eine Grenze einzuziehen wäre. Z.Bsp. Adressen unter n Treffer kommen gar nicht in die Liste der möglichen Dubletten. Hättet ihr noch weitere oder gar völlig andere Ideen, wie man halbwegs brauchbar (eine 100%-Lösung gibts es hier eh nicht) die Adressen vergleichen könnte? Gruß! Hawelka |
||||||||||||||||||||
| ||||||||||||||||||||
![]()
Re: Adressdublettenprüfung (Robert Craven am 13.11.2009 18:12:06)
![]()
Re(2): Adressdublettenprüfung (Hawelka am 13.11.2009 19:37:28)
![]()
Re(3): Adressdublettenprüfung (hellbringer am 14.11.2009 12:19:37)
![]()
Re(4): Adressdublettenprüfung (Hawelka am 14.11.2009 12:42:44)
![]()
Re: Adressdublettenprüfung (Paulas_Papa am 13.11.2009 22:31:42)
![]()
Re(2): Adressdublettenprüfung (Hawelka am 13.11.2009 22:50:51)
![]()
Re(3): Adressdublettenprüfung (Paulas_Papa am 14.11.2009 23:42:01)
![]()
Re(4): Adressdublettenprüfung (Hawelka am 15.11.2009 13:52:51)
![]()
Re(3): Adressdublettenprüfung (ruprecht69 am 15.11.2009 01:35:01)
![]()
Re: Adressdublettenprüfung (Capt.Nemo am 13.11.2009 23:45:56)
![]()
Re(2): Adressdublettenprüfung (Hawelka am 14.11.2009 00:25:48)
![]()
Re(3): Adressdublettenprüfung (Capt.Nemo am 14.11.2009 00:58:56)
![]()
Re(4): Adressdublettenprüfung (Hawelka am 14.11.2009 11:17:04)
![]()
Re(5): Adressdublettenprüfung (-Transformer2K- am 14.11.2009 11:29:51)
![]()
Re(6): Adressdublettenprüfung (Hawelka am 14.11.2009 11:34:16)
![]()
Re(7): Adressdublettenprüfung (-Transformer2K- am 14.11.2009 11:36:32)
![]()
Re(8): Adressdublettenprüfung (Hawelka am 14.11.2009 11:38:47)
![]()
Re(9): Adressdublettenprüfung (-Transformer2K- am 14.11.2009 12:55:31)
![]()
Re(5): Adressdublettenprüfung (Capt.Nemo am 14.11.2009 12:13:58)
![]()
|
|
|||||||||||||||||||
Ich weiß ja nicht wie groß die DB ist nach der du abgleichen willst Die ist nicht besonders riesig - rund 20.000 Adressen, und davon ca. 98% im deutschsprachigen Raum. EINE Adresse gegen alle in der DB, nicht alle gegen alle) durchzuführen, eine Arbeit von Deinen geforderten Millisekunden Also, dies möchte ich bezweifeln. Hast du dir den Algorithmus schon mal näher angesehen? Wie gesagt, lad das Programm mal runter Das würde mir aber nicht viel helfen, da ich ja nicht weiß, welche Methode(n) hier tatsächlich angewendet werden. Und der Grund für mich, hier zu posten, ist ja nicht, dass ich eine Zusatzsoftware suche, sondern ein paar Ideen zu diesem Thema. Welche du übrigens auch geliefert hast! Wegen deinem Beispiel: Aus genau diesem Grund gleicht man ja auch den gesamten Datensatz ab (also inkl. Adresse, Tel. Nr, etc.), und nicht nur den Namen Ja - schon klar, ich wollte damit darstellen, dass überflüssige Begriffe einfach das Ergebnis negativ beeinflussen. Aber die Fuzzy-Suche und ein vorgelagerter Filter schließen sich ja auch nicht aus. Außerdem sollte eine Software dem Benutzer nicht verbieten Hab ich auch nicht vor BTW, der Algorithmus würde nicht A=B ausgeben (dann ist was falsch) sondern eine Ähnlichkeit von xx% von A, B und C. aber du weißt, was ich damit meinte |
||||||||||||||||||||
| ||||||||||||||||||||
![]()
Re(7): Adressdublettenprüfung (Capt.Nemo am 14.11.2009 13:30:33)
![]()
Re: Adressdublettenprüfung (-Transformer2K- am 14.11.2009 10:37:09)
![]()
Re(2): Adressdublettenprüfung (Hawelka am 14.11.2009 11:18:40)
![]()
Re(3): Adressdublettenprüfung (-Transformer2K- am 14.11.2009 11:28:26)
![]()
Re(4): Adressdublettenprüfung (Hawelka am 14.11.2009 11:31:19)
![]()
Re(5): Adressdublettenprüfung (-Transformer2K- am 14.11.2009 11:31:47)
![]()
Re: Adressdublettenprüfung (j. am 17.11.2009 15:43:50)
![]()
Re(2): Adressdublettenprüfung (Xane am 18.11.2009 01:51:44)
![]()
Re(3): Adressdublettenprüfung (Hawelka am 18.11.2009 16:51:24)
![]()
Re: Adressdublettenprüfung (shodan am 18.11.2009 14:00:01)
![]()
Re(2): Adressdublettenprüfung (Hawelka am 18.11.2009 17:01:36)
![]()
Re: Adressdublettenprüfung (dasistmeinnick11+ am 19.11.2009 13:35:44)
Dieses Forum ist eine frei zugängliche Diskussionsplattform.
Der Betreiber übernimmt keine Verantwortung für den Inhalt der Beiträge und behält sich das Recht vor, Beiträge mit rechtswidrigem oder anstößigem Inhalt zu löschen.
Auf ABGB §1330 Abs. 2 wird ausdrücklich hingewiesen.