<?xml version="1.0" encoding="UTF-8"?>
<rss xmlns:dc="http://purl.org/dc/elements/1.1/" version="2.0">
  <channel>
    <title>Adressdublettenprüfung</title>
    <link>http://forum.geizhals.at/feed.jsp?id=671258</link>
    <description>Geizhals-Forum</description>
    <item>
      <title>Re: Adressdublettenprüfung</title>
      <link>http://forum.geizhals.at/t671258,5765038.html#5765038</link>
      <description>Bindestrich sollte noch bedacht werden&lt;br/&gt;</description>
      <pubDate>Thu, 19 Nov 2009 12:35:44 GMT</pubDate>
      <guid>http://forum.geizhals.at/t671258,5765038.html#5765038</guid>
      <dc:creator>dasistmeinnick11+</dc:creator>
      <dc:date>2009-11-19T12:35:44Z</dc:date>
    </item>
    <item>
      <title>Re: Adressdublettenprüfung</title>
      <link>http://forum.geizhals.at/t671258,5765040.html#5765040</link>
      <description>Bindestrich sollte noch bedacht werden bzw. schreibt der eine Gasse/Platz/Straße extra nach einer Leertaste, der andere aber zusammen.&lt;br/&gt;</description>
      <pubDate>Thu, 19 Nov 2009 12:35:44 GMT</pubDate>
      <guid>http://forum.geizhals.at/t671258,5765040.html#5765040</guid>
      <dc:creator>dasistmeinnick11+</dc:creator>
      <dc:date>2009-11-19T12:35:44Z</dc:date>
    </item>
    <item>
      <title>Re(2): Adressdublettenprüfung</title>
      <link>http://forum.geizhals.at/t671258,5763861.html#5763861</link>
      <description>&lt;blockquote&gt;&lt;em&gt; Zweiter Schritt: Kölner Phonetik mit menschlichem Interceptor.&lt;br&gt;(Ansonsten kanns nämlich passieren, dass die Herren Kaumer wohnhaft in der&lt;br&gt;Küngstrasse mit dem Herrn Kamor wohnhaft in der Keinigstrasse als Dublette&lt;br&gt;zusammengelegt werden - selber Phonetischer Code..)....&lt;br&gt;&lt;/em&gt;&lt;/blockquote&gt;&lt;br&gt;&lt;br&gt;Hi!&lt;br&gt;&lt;br&gt;Bei der Dublettenprüfung wird es ohnehin so sein, dass es nicht zu einer Hinderung der Anlage kommt, sondern dass lediglich eine Liste mit Treffern angezeigt wird.&lt;br&gt;Der Anwender kann sich dann für eine etwaige bestehede Adresse entscheiden, oder das Hinweisfenster einfach ignorieren.&lt;br&gt;&lt;br&gt;Meine Variante ist insofern einfacher, als dass ich das Land/PLZ als Vorselektionskriterium heranziehe. Einach aus dem Grund, weil die PLZ eigentlich immer korrekt ist. Das liegt aber daran, dass nur bereits hinterlegt PLZ/Orte zugelassen werden und nur mit sehr viel Aufwand, eine dem System unbekannte PLZ eingegeben werden kann. Bis auf jene Länder, wo im System kein entsprechender PLZ-Katalog vorhanden ist. Aber das trifft bei diesem Kunden so gut wie nicht zu.&lt;br&gt;&lt;br&gt;Gruß!&lt;br&gt;Hawelka&lt;br/&gt;</description>
      <pubDate>Wed, 18 Nov 2009 16:01:36 GMT</pubDate>
      <guid>http://forum.geizhals.at/t671258,5763861.html#5763861</guid>
      <dc:creator>Hawelka</dc:creator>
      <dc:date>2009-11-18T16:01:36Z</dc:date>
    </item>
    <item>
      <title>Re(3): Adressdublettenprüfung</title>
      <link>http://forum.geizhals.at/t671258,5763842.html#5763842</link>
      <description>&lt;blockquote&gt;&lt;em&gt; Du (Hawelka) solltest die berechneten Felder gleich in der Tabelle mitführen.&lt;br&gt;Ein paar Vorersetzungen, so wie angeführt, kann man natürlich vor die&lt;br&gt;Berechnung schalten.&lt;br&gt;&lt;/em&gt;&lt;/blockquote&gt;&lt;br&gt;&lt;br&gt;Ich habs jetzt auch so gelöst, dass über einen DB-Write-Trigger die Adressen entsprechend analysiert und codiert werden und das Ergebnis in einer entsprechenden Tabelle indiziert abgelegt werden. Das dauert beim Ändern/Anlegen bloss ein Augenzinkern und der eigentliche Vergleich kann auf bereits fertige Keys losgehen.&lt;br&gt;Jetzt muss nur noch die Liste mit den Filterphrasen aufgebaut werden &lt;img src="smile.gif" width="16" height="19" align="absmiddle" alt=":)"/&gt;&lt;br/&gt;</description>
      <pubDate>Wed, 18 Nov 2009 15:51:24 GMT</pubDate>
      <guid>http://forum.geizhals.at/t671258,5763842.html#5763842</guid>
      <dc:creator>Hawelka</dc:creator>
      <dc:date>2009-11-18T15:51:24Z</dc:date>
    </item>
    <item>
      <title>Re: Adressdublettenprüfung</title>
      <link>http://forum.geizhals.at/t671258,5763535.html#5763535</link>
      <description>Ist beides allein nicht wirklich geeignet.&lt;br&gt;&lt;br&gt;Dein Ansatz findet zu wenige Dubletten. Die Kölner Phonetik ist rein automatisiert ein ziemliches Wagnis, da sie oft dubletten liefert, die gar keine sind.&lt;br&gt;&lt;br&gt;Mein Ansatz wäre ein 2 - Schritt - Algorithmus.&lt;br&gt;&lt;br&gt;Erster Schritt: erweiterte Variante deiner Version (über Regex-Ersetzungen) -&gt; Filterung echter Dubletten.&lt;br&gt;&lt;br&gt;Zweiter Schritt: Kölner Phonetik mit menschlichem Interceptor.&lt;br&gt;(Ansonsten kanns nämlich passieren, dass die Herren Kaumer wohnhaft in der Küngstrasse mit dem Herrn Kamor wohnhaft in der Keinigstrasse als Dublette zusammengelegt werden - selber Phonetischer Code..)....&lt;br/&gt;</description>
      <pubDate>Wed, 18 Nov 2009 13:00:01 GMT</pubDate>
      <guid>http://forum.geizhals.at/t671258,5763535.html#5763535</guid>
      <dc:creator>shodan</dc:creator>
      <dc:date>2009-11-18T13:00:01Z</dc:date>
    </item>
    <item>
      <title>Re(2): Adressdublettenprüfung</title>
      <link>http://forum.geizhals.at/t671258,5762851.html#5762851</link>
      <description>&lt;blockquote&gt;&lt;em&gt;Kölner Phonetik&lt;/em&gt;&lt;/blockquote&gt;&lt;br&gt;&lt;br&gt;Gutes Stichwort, damit wurde auch bei uns die Dublettenprüfung realisiert.&lt;br&gt;Mehrere 100.000 Datensätze, Check über mehrere (4?) Felder, Responsezeit &amp;lt; 1 Sekunde, in Wahrheit nur abhängig von der Anzahl der zurückgelieferten Dublettensätze. Ergebnis durchaus brauchbar.&lt;br&gt;&lt;br&gt;Du (Hawelka) solltest die berechneten Felder gleich in der Tabelle mitführen. Ein paar Vorersetzungen, so wie angeführt, kann man natürlich vor die Berechnung schalten.&lt;br/&gt;</description>
      <pubDate>Wed, 18 Nov 2009 00:51:44 GMT</pubDate>
      <guid>http://forum.geizhals.at/t671258,5762851.html#5762851</guid>
      <dc:creator>Xane</dc:creator>
      <dc:date>2009-11-18T00:51:44Z</dc:date>
    </item>
    <item>
      <title>Re(2): Adressdublettenprüfung</title>
      <link>http://forum.geizhals.at/t671258,5762849.html#5762849</link>
      <description>&lt;blockquote&gt;&lt;em&gt;Kölner Phonetik&lt;/em&gt;&lt;/blockquote&gt;&lt;br&gt;&lt;br&gt;Gutes Stichwort, damit wurde auch bei uns die Dublettenprüfung realisiert.&lt;br&gt;Mehrere 100.000 Datensätze, Check über mehrere (4?) Felder, Responsezeit &amp;lt; 1 Sekunde, in Wahrheit nur abhängig von der Anzahl der zurückgelieferten Dublettensätze. Ergebnis durchaus brauchbar.&lt;br&gt;&lt;br&gt;Du solltest die berechneten Felder gleich in der Tabelle mitführen. Ein paar Vorersetzungen, so wie du angeführt hast, kann man natürlich vor die Berechnung schalten.&lt;br/&gt;</description>
      <pubDate>Wed, 18 Nov 2009 00:51:44 GMT</pubDate>
      <guid>http://forum.geizhals.at/t671258,5762849.html#5762849</guid>
      <dc:creator>Xane</dc:creator>
      <dc:date>2009-11-18T00:51:44Z</dc:date>
    </item>
    <item>
      <title>Re(2): Adressdublettenprüfung</title>
      <link>http://forum.geizhals.at/t671258,5762848.html#5762848</link>
      <description>&lt;blockquote&gt;&lt;em&gt;Kölner Phonetik&lt;/em&gt;&lt;/blockquote&gt;&lt;br&gt;&lt;br&gt;Gutes Stichwort, damit wurde auch bei uns die Dublettenprüfung realisiert.&lt;br&gt;Mehrere 100.000 Datensätze, Check über mehrere (4?) Felder, Responsezeit &amp;lt; 1 Sekunde, in Wahrheit nur abhängig von der Anzahl der zurückgelieferten Dublettensätze. Ergebnis durchaus brauchbar.&lt;br&gt;&lt;br&gt;Du solltest die berechneten Felder gleich in der Tabelle mitführen. Ein paar Vorersetzung, so wie du angeführt hast, kann man natürlich vor die Berechnung schalten.&lt;br/&gt;</description>
      <pubDate>Wed, 18 Nov 2009 00:51:44 GMT</pubDate>
      <guid>http://forum.geizhals.at/t671258,5762848.html#5762848</guid>
      <dc:creator>Xane</dc:creator>
      <dc:date>2009-11-18T00:51:44Z</dc:date>
    </item>
    <item>
      <title>Re: Adressdublettenprüfung</title>
      <link>http://forum.geizhals.at/t671258,5762200.html#5762200</link>
      <description>Afaik hatte die Pozilei mal sowas sehr gut funktionierend. Da wurde alles beinhart runtergebrochen so wies auch in der Kölner Phonetik passiert.&lt;br/&gt;</description>
      <pubDate>Tue, 17 Nov 2009 14:43:50 GMT</pubDate>
      <guid>http://forum.geizhals.at/t671258,5762200.html#5762200</guid>
      <dc:creator>j.</dc:creator>
      <dc:date>2009-11-17T14:43:50Z</dc:date>
    </item>
    <item>
      <title>Re(4): Adressdublettenprüfung</title>
      <link>http://forum.geizhals.at/t671258,5758971.html#5758971</link>
      <description>Da bin ich auch voll bei Dir!&lt;br&gt;Nur ist es so, dass ich diese Erweiterung in eine bestehende Anwendung integrieren soll, welche unter Linux läuft.&lt;br&gt;&lt;br&gt;Danke!&lt;br&gt;Hawelka&lt;br/&gt;</description>
      <pubDate>Sun, 15 Nov 2009 12:52:51 GMT</pubDate>
      <guid>http://forum.geizhals.at/t671258,5758971.html#5758971</guid>
      <dc:creator>Hawelka</dc:creator>
      <dc:date>2009-11-15T12:52:51Z</dc:date>
    </item>
    <item>
      <title>Re(3): Adressdublettenprüfung</title>
      <link>http://forum.geizhals.at/t671258,5758560.html#5758560</link>
      <description>Grade dann solltest du wissen, dass man das Rad nicht neu erfinden muß &lt;img src="smile.gif" width="16" height="19" align="absmiddle" alt=":)"/&gt;.&lt;br/&gt;</description>
      <pubDate>Sun, 15 Nov 2009 00:35:01 GMT</pubDate>
      <guid>http://forum.geizhals.at/t671258,5758560.html#5758560</guid>
      <dc:creator>ruprecht69</dc:creator>
      <dc:date>2009-11-15T00:35:01Z</dc:date>
    </item>
    <item>
      <title>Re(3): Adressdublettenprüfung</title>
      <link>http://forum.geizhals.at/t671258,5758502.html#5758502</link>
      <description>Ich versuch dir bloß zu sagen, dass diese Problem bereits wirklich gut gelöst ist und du daher dein Hirn über anderen Themen zermartern solltest.&lt;br&gt;&lt;br&gt;mfg&lt;br&gt;lukas &lt;br/&gt;</description>
      <pubDate>Sat, 14 Nov 2009 22:42:01 GMT</pubDate>
      <guid>http://forum.geizhals.at/t671258,5758502.html#5758502</guid>
      <dc:creator>Paulas_Papa</dc:creator>
      <dc:date>2009-11-14T22:42:01Z</dc:date>
    </item>
    <item>
      <title>Re(7): Adressdublettenprüfung</title>
      <link>http://forum.geizhals.at/t671258,5757837.html#5757837</link>
      <description>&lt;blockquote&gt;&lt;em&gt;Also, dies möchte ich bezweifeln. Hast du dir den Algorithmus schon mal näher angesehen?&lt;/em&gt;&lt;/blockquote&gt;&lt;br&gt;Nein, wir verwenden das Programm nur, wir entwickeln es nicht &lt;img src="smile.gif" width="16" height="19" align="absmiddle" alt=":)"/&gt;&lt;br&gt;&lt;br&gt;&lt;blockquote&gt;&lt;em&gt;Das würde mir aber nicht viel helfen, da ich ja nicht weiß, welche Methode(n) hier tatsächlich angewendet werden.&lt;/em&gt;&lt;/blockquote&gt;&lt;br&gt;War auch nur als Beispiel gedacht, um dir zu zeigen wie Leistungsfähig unscharfe Suche ist (Trefferquote und Geschwindigkeit).&lt;br&gt;&lt;br&gt;&lt;blockquote&gt;&lt;em&gt;Ja - schon klar, ich wollte damit darstellen, dass überflüssige Begriffe einfach das Ergebnis negativ beeinflussen.&lt;/em&gt;&lt;/blockquote&gt;&lt;br&gt;Ja tun sie. Ein paar kann man wegfiltern, aber verschwende nicht zu viel Energie damit. Vor allem, wenn wie du sagst, die Felder nichtmal richtig ausgefüllt werden(!)&lt;br&gt;&lt;br&gt;&lt;blockquote&gt;&lt;em&gt;Aber die Fuzzy-Suche und ein vorgelagerter Filter schließen sich ja auch nicht aus.&lt;/em&gt;&lt;/blockquote&gt;&lt;br&gt;Nein tun sie nicht, siehe oben. Aber ich sage dir aus Erfahrung: Verschwende nicht zu viel Energie damit, du glaubst nicht was es alles für Gemeinsamkeiten gibt, die dann doch keine identen Datensätze sind.&lt;br&gt;&lt;br&gt;&lt;br&gt;Meine Empfehlung für das Projekt (beruht auf einmaliger Erfahrung, da wir eine minimal größere DB entrümpelt habe):&lt;br&gt;* Säuberung der DB. Ich weiß, da sind 1 bis 2 Mannjahre nötig (eventuell extern vergeben), aber Adressen sind idR Kapital und das sollte dem MD klar sein.&lt;br&gt;* Regeln und deren konsequente Umsetzung und Kontrolle bei der Neuanlage oder Änderung von Datensätzen (Schulung der MA die im CRM Ändern dürfen).&lt;br&gt;&lt;br&gt;Und dann kann dein Programm greifen. Wenn die Daten mal halbwegs strukturiert sind, dann ist eine gut eingestellte unscharfe Suche bei kleineren Tipp- und Eingabefehlern zu 100% treffsicher und liefert nur sehr wenige zufällige Ähnlichkeiten.&lt;br&gt;&lt;br&gt;Und nochwas: Ein Herr Maier muß kein Meier sein, ein KR G. Huber muß nicht gleich einem Dr. G. Huber sein usw. Bei 20.000 Datensätzen wäre ich mit den von dir vorgeschlagenen Vereinfachungen schon sehr vorsichtig.&lt;br&gt;&lt;br&gt;Und wie gesagt: Die Geschwindigkeit passt. Außerdem ist es sicher kein Problem, wenn nach dem Button "Speichern" das CRM mal für eine Sekunde eine Gedankenpause macht um die Ähnlichkeiten zu den bereits in der DB angelegten Datensätzen zu berechnen - muß ja nicht live während der Eingabe passieren.&lt;br/&gt;</description>
      <pubDate>Sat, 14 Nov 2009 12:30:33 GMT</pubDate>
      <guid>http://forum.geizhals.at/t671258,5757837.html#5757837</guid>
      <dc:creator>Capt.Nemo</dc:creator>
      <dc:date>2009-11-14T12:30:33Z</dc:date>
    </item>
    <item>
      <title>Re(9): Adressdublettenprüfung</title>
      <link>http://forum.geizhals.at/t671258,5757784.html#5757784</link>
      <description>was eröffnest dann einen Thread, wennst eh weißt, wie es geht &lt;img src="hornteeth.gif" width="16" height="26" align="absmiddle" alt="&amp;gt;&amp;#58;-D"/&gt;&lt;br/&gt;</description>
      <pubDate>Sat, 14 Nov 2009 11:55:31 GMT</pubDate>
      <guid>http://forum.geizhals.at/t671258,5757784.html#5757784</guid>
      <dc:creator>-Transformer2K-</dc:creator>
      <dc:date>2009-11-14T11:55:31Z</dc:date>
    </item>
    <item>
      <title>Re(4): Adressdublettenprüfung</title>
      <link>http://forum.geizhals.at/t671258,5757772.html#5757772</link>
      <description>Hab ich zwar schon gefunden - aber danke dafür!&lt;br/&gt;</description>
      <pubDate>Sat, 14 Nov 2009 11:42:44 GMT</pubDate>
      <guid>http://forum.geizhals.at/t671258,5757772.html#5757772</guid>
      <dc:creator>Hawelka</dc:creator>
      <dc:date>2009-11-14T11:42:44Z</dc:date>
    </item>
    <item>
      <title>Re(6): Adressdublettenprüfung</title>
      <link>http://forum.geizhals.at/t671258,5757767.html#5757767</link>
      <description>&lt;blockquote&gt;&lt;em&gt; Ich weiß ja nicht wie groß die DB ist nach der du abgleichen willst&lt;br&gt;&lt;/em&gt;&lt;/blockquote&gt;&lt;br&gt;&lt;br&gt;Die ist nicht besonders riesig - rund 20.000 Adressen, und davon ca. 98% im deutschsprachigen Raum.&lt;br&gt;&lt;br&gt;&lt;blockquote&gt;&lt;em img src="angry.gif" width="16" height="19" align="absmiddle" alt="&amp;gt;-("&gt;EINE Adresse gegen alle in der DB, nicht alle gegen alle) durchzuführen, eine Arbeit von Deinen geforderten Millisekunden&lt;br&gt;&lt;/em&gt;&lt;/blockquote&gt;&lt;br&gt;&lt;br&gt;Also, dies möchte ich bezweifeln. Hast du dir den Algorithmus schon mal näher angesehen?&lt;br&gt;&lt;br&gt;&lt;blockquote&gt;&lt;em&gt; Wie gesagt, lad das Programm mal runter&lt;/em&gt;&lt;/blockquote&gt;&lt;br&gt;&lt;br&gt;Das würde mir aber nicht viel helfen, da ich ja nicht weiß, welche Methode(n) hier tatsächlich angewendet werden. Und der Grund für mich, hier zu posten, ist ja nicht, dass ich eine Zusatzsoftware suche, sondern ein paar Ideen zu diesem Thema. Welche du übrigens auch geliefert hast!&lt;br&gt;&lt;br&gt;&lt;blockquote&gt;&lt;em&gt; Wegen deinem Beispiel: Aus genau diesem Grund gleicht man ja auch den gesamten Datensatz ab (also inkl. Adresse, Tel. Nr, etc.), und nicht nur den Namen&lt;br&gt;&lt;/em&gt;&lt;/blockquote&gt;&lt;br&gt;&lt;br&gt;Ja - schon klar, ich wollte damit darstellen, dass überflüssige Begriffe einfach das Ergebnis negativ beeinflussen. Aber die Fuzzy-Suche und ein vorgelagerter Filter schließen sich ja auch nicht aus. &lt;br&gt;&lt;br&gt;&lt;blockquote&gt;&lt;em&gt; Außerdem sollte eine Software dem Benutzer nicht verbieten&lt;br&gt;&lt;/em&gt;&lt;/blockquote&gt;&lt;br&gt;&lt;br&gt;Hab ich auch nicht vor &lt;img src="smile.gif" width="16" height="19" align="absmiddle" alt=":)"/&gt;&lt;br&gt;&lt;br&gt;&lt;blockquote&gt;&lt;em&gt; BTW, der Algorithmus würde nicht A=B ausgeben (dann ist was falsch) sondern eine Ähnlichkeit von xx% von A, B und C.&lt;br&gt;&lt;/em&gt;&lt;/blockquote&gt;&lt;br&gt;&lt;br&gt;aber du weißt, was ich damit meinte &lt;img src="smile.gif" width="16" height="19" align="absmiddle" alt=":)"/&gt;&lt;br/&gt;</description>
      <pubDate>Sat, 14 Nov 2009 11:41:42 GMT</pubDate>
      <guid>http://forum.geizhals.at/t671258,5757767.html#5757767</guid>
      <dc:creator>Hawelka</dc:creator>
      <dc:date>2009-11-14T11:41:42Z</dc:date>
    </item>
    <item>
      <title>Re(3): Adressdublettenprüfung</title>
      <link>http://forum.geizhals.at/t671258,5757738.html#5757738</link>
      <description>&lt;blockquote&gt;&lt;em&gt; Der ist mir da ein bissi zu "englisch" orientiert.&lt;br&gt;&lt;/em&gt;&lt;/blockquote&gt;&lt;br&gt;&lt;br&gt;&lt;a href="http://de.wikipedia.org/wiki/K%C3%B6lner_Phonetik" rel="noopener" target="_blank"&gt;http:/&lt;wbr/&gt;/&lt;wbr/&gt;de.wikipedia.org/&lt;wbr/&gt;wiki/&lt;wbr/&gt;K%C3%B6lner_Phonetik&lt;/a&gt; &lt;br/&gt;</description>
      <pubDate>Sat, 14 Nov 2009 11:19:37 GMT</pubDate>
      <guid>http://forum.geizhals.at/t671258,5757738.html#5757738</guid>
      <dc:creator>hellbringer</dc:creator>
      <dc:date>2009-11-14T11:19:37Z</dc:date>
    </item>
    <item>
      <title>Re(5): Adressdublettenprüfung</title>
      <link>http://forum.geizhals.at/t671258,5757733.html#5757733</link>
      <description>Ich weiß ja nicht wie groß die DB ist nach der du abgleichen willst, aber selbst mehrere tausend Datensätze werden mit dem Programm in wenigen Sekunden Kreuz-Abgeglichen, also sollte es für einen durchschnittlichen heutigen Rechner einen einfachen Abgleich (also EINE Adresse gegen alle in der DB, nicht alle gegen alle) durchzuführen, eine Arbeit von Deinen geforderten Millisekunden sein. Wie gesagt, lad das Programm mal runter (gibt eine Demoversion), exportier deine DB mal, und gleich sie mit einer einzelnen Adresse ab, dann siehst du wie Leistungsfähig das Ganze ist, wenn man es ordentlich Programmiert.&lt;br&gt;&lt;br&gt;Bezüglich Eignung: Bei Adress-Abgleichen ist eine unscharfe Suche die &lt;b&gt;einzige&lt;/b&gt; geeignete Lösung!&lt;br&gt;&lt;br&gt;Wegen deinem Beispiel: Aus genau diesem Grund gleicht man ja auch den gesamten Datensatz ab (also inkl. Adresse, Tel. Nr, etc.), und nicht nur den Namen. Außerdem sollte eine Software dem Benutzer nicht &lt;i&gt;verbieten&lt;/i&gt; den Datensatz anzulegen, sondern eine Auswahl an ähnlichen Treffern präsentieren und den Anwender entscheiden lassen, ob der Datensatz schon vorhanden ist oder neu angelegt wird.&lt;br&gt;BTW, der Algorithmus würde &lt;i&gt;nicht&lt;/i&gt; A=B ausgeben (dann ist was falsch) sondern eine Ähnlichkeit von xx% von A, B und C.&lt;br/&gt;</description>
      <pubDate>Sat, 14 Nov 2009 11:13:58 GMT</pubDate>
      <guid>http://forum.geizhals.at/t671258,5757733.html#5757733</guid>
      <dc:creator>Capt.Nemo</dc:creator>
      <dc:date>2009-11-14T11:13:58Z</dc:date>
    </item>
    <item>
      <title>Re(8): Adressdublettenprüfung</title>
      <link>http://forum.geizhals.at/t671258,5757694.html#5757694</link>
      <description>Oder halt alle Telefonbücher der Welt importierte und eine Neuanlage gar nicht mehr zulasse &lt;img src="hornsmile.gif" width="16" height="26" align="absmiddle" alt="&amp;gt;&amp;#58;-&amp;#41;"/&gt;&lt;br/&gt;</description>
      <pubDate>Sat, 14 Nov 2009 10:38:47 GMT</pubDate>
      <guid>http://forum.geizhals.at/t671258,5757694.html#5757694</guid>
      <dc:creator>Hawelka</dc:creator>
      <dc:date>2009-11-14T10:38:47Z</dc:date>
    </item>
    <item>
      <title>Re(7): Adressdublettenprüfung</title>
      <link>http://forum.geizhals.at/t671258,5757690.html#5757690</link>
      <description>tjo dann musst halt die Anwendung so umprogrammieren, dass man bei Straße, Ort und PLZ nur Daten vom Straßenverzeichnis auswählen kann und nur mehr die Hausnummer ein freies Feld ist!&lt;br/&gt;</description>
      <pubDate>Sat, 14 Nov 2009 10:36:32 GMT</pubDate>
      <guid>http://forum.geizhals.at/t671258,5757690.html#5757690</guid>
      <dc:creator>-Transformer2K-</dc:creator>
      <dc:date>2009-11-14T10:36:32Z</dc:date>
    </item>
    <item>
      <title>Re(6): Adressdublettenprüfung</title>
      <link>http://forum.geizhals.at/t671258,5757685.html#5757685</link>
      <description>&lt;blockquote&gt;&lt;em&gt; sondern die Datenbank selber&lt;br&gt;&lt;/em&gt;&lt;/blockquote&gt;&lt;br&gt;&lt;br&gt;Full ACK!&lt;br&gt;Aber meinst, dass die Anwender das kümmert?&lt;br&gt;Die schreiben in das Firmenfeld die Personendaten, und wenns mal extrem gut drauf sind, die Personendaten in das Straßenfeld &lt;img src="smile.gif" width="16" height="19" align="absmiddle" alt=":)"/&gt;&lt;br/&gt;</description>
      <pubDate>Sat, 14 Nov 2009 10:34:16 GMT</pubDate>
      <guid>http://forum.geizhals.at/t671258,5757685.html#5757685</guid>
      <dc:creator>Hawelka</dc:creator>
      <dc:date>2009-11-14T10:34:16Z</dc:date>
    </item>
    <item>
      <title>Re(5): Adressdublettenprüfung</title>
      <link>http://forum.geizhals.at/t671258,5757678.html#5757678</link>
      <description>na dann &lt;img src="zwinker.gif" width="16" height="19" align="absmiddle" alt=";-)"/&gt;&lt;br/&gt;</description>
      <pubDate>Sat, 14 Nov 2009 10:31:47 GMT</pubDate>
      <guid>http://forum.geizhals.at/t671258,5757678.html#5757678</guid>
      <dc:creator>-Transformer2K-</dc:creator>
      <dc:date>2009-11-14T10:31:47Z</dc:date>
    </item>
    <item>
      <title>Re(4): Adressdublettenprüfung</title>
      <link>http://forum.geizhals.at/t671258,5757676.html#5757676</link>
      <description>&lt;blockquote&gt;&lt;em&gt; da die Daten einen realen Wert haben, kann ich sie dir nicht einfach so&lt;br&gt;liefern&lt;br&gt;&lt;/em&gt;&lt;/blockquote&gt;&lt;br&gt;&lt;br&gt;War auch nicht so bier-ernst zu verstehen. &lt;img src="teeth.gif" width="16" height="19" align="absmiddle" alt="|-D"/&gt;&lt;br&gt;&lt;br/&gt;</description>
      <pubDate>Sat, 14 Nov 2009 10:31:19 GMT</pubDate>
      <guid>http://forum.geizhals.at/t671258,5757676.html#5757676</guid>
      <dc:creator>Hawelka</dc:creator>
      <dc:date>2009-11-14T10:31:19Z</dc:date>
    </item>
    <item>
      <title>Re(5): Adressdublettenprüfung</title>
      <link>http://forum.geizhals.at/t671258,5757677.html#5757677</link>
      <description>wenn man die Daten normalisiert abspeichert, können sich solche Fälle erst gar nicht ergeben - soll heißen, dass nicht der Import das Problem ist, sondern die Datenbank selber!&lt;br/&gt;</description>
      <pubDate>Sat, 14 Nov 2009 10:29:51 GMT</pubDate>
      <guid>http://forum.geizhals.at/t671258,5757677.html#5757677</guid>
      <dc:creator>-Transformer2K-</dc:creator>
      <dc:date>2009-11-14T10:29:51Z</dc:date>
    </item>
    <item>
      <title>Re(5): Adressdublettenprüfung</title>
      <link>http://forum.geizhals.at/t671258,5757674.html#5757674</link>
      <description>wenn man die Daten normalisiert abspeichert, können sich solche Fälle erst gar nicht ergeben!&lt;br/&gt;</description>
      <pubDate>Sat, 14 Nov 2009 10:29:51 GMT</pubDate>
      <guid>http://forum.geizhals.at/t671258,5757674.html#5757674</guid>
      <dc:creator>-Transformer2K-</dc:creator>
      <dc:date>2009-11-14T10:29:51Z</dc:date>
    </item>
    <item>
      <title>Re(3): Adressdublettenprüfung</title>
      <link>http://forum.geizhals.at/t671258,5757671.html#5757671</link>
      <description>da die Daten einen realen Wert haben, kann ich sie dir nicht einfach so liefern &lt;img src="zwinker.gif" width="16" height="19" align="absmiddle" alt=";-)"/&gt;&lt;br/&gt;</description>
      <pubDate>Sat, 14 Nov 2009 10:28:26 GMT</pubDate>
      <guid>http://forum.geizhals.at/t671258,5757671.html#5757671</guid>
      <dc:creator>-Transformer2K-</dc:creator>
      <dc:date>2009-11-14T10:28:26Z</dc:date>
    </item>
    <item>
      <title>Re(2): Adressdublettenprüfung</title>
      <link>http://forum.geizhals.at/t671258,5757648.html#5757648</link>
      <description>Ich hätte halt soooo gerne mal ein paar Fakten zu diesen Äußerungen &lt;img src="teeth.gif" width="16" height="19" align="absmiddle" alt="|-D"/&gt;&lt;br/&gt;</description>
      <pubDate>Sat, 14 Nov 2009 10:18:40 GMT</pubDate>
      <guid>http://forum.geizhals.at/t671258,5757648.html#5757648</guid>
      <dc:creator>Hawelka</dc:creator>
      <dc:date>2009-11-14T10:18:40Z</dc:date>
    </item>
    <item>
      <title>Re(4): Adressdublettenprüfung</title>
      <link>http://forum.geizhals.at/t671258,5757642.html#5757642</link>
      <description>Mußt ja ned gleich so angrührt sein &lt;img src="hornsmile.gif" width="16" height="26" align="absmiddle" alt="&amp;gt;&amp;#58;-&amp;#41;"/&gt;&lt;br&gt;&lt;br&gt;Deine Idee mit der Fuzzy-Logic .. ähhmm Fuzzy-Suche ist ja auch interessant.&lt;br&gt;Nur für diesen Anwendungsfall einfach ungeeignet.&lt;br&gt;Unabhängig von der Effizienz, wäre diese Methode schlicht zu rechenintensiv.&lt;br&gt;Mein Adressenabgleich passiert ja nicht im Stapel mit bereits vorhandenem Datenmaterial, sondern bereits während der Erfassung um schon im Vorfeld Dubletten zu vermeiden.&lt;br&gt;Der Anwender sollte innerhalb einiger Millisekunden einen Hinweis bekommen, dass Ählichkeiten festgestellt wurden und eine Liste der verdächtigen Adressen erhalten.&lt;br&gt;Und Adressdaten beinhalten nun mal sehr viele Begriffe, welche einen rein mathematischen Ansatz ineffizient machen.&lt;br&gt;&lt;br&gt;Ein Beispiel:&lt;br&gt;A.) Herr Kommerzialrat Dr. Berhard Huber&lt;br&gt;B.) Herr Dr. Bernhard Meier, Kommerzialrat&lt;br&gt;C.) Hr. Dr. Bernhard Huber&lt;br&gt;&lt;br&gt;Ein rein mathematischer Ansatz würde sich für A=B entscheiden, weil hier die größten Ähnlichkeiten vorliegen. Wendet man aber einen Filter an, welcher alle adresstypischen Phrasen wie "Dr., Kommerzialrat, Herr, Hr. ...." herausnimmt, bekommt man eine andere Qualität an Vergleichsdaten.&lt;br&gt;Mit diesen Restdaten könnte man nun eine Ähnlichkeitssuche durchführen. Aber selbst dann bietet sich eine phonetische Suche eher an, als eine rein stringorientierte.&lt;br&gt;Die "Kölner Phonetik" scheint hier das deutschsprachige Gegenstück zum "Soundex" zu sein.&lt;br&gt;&lt;br/&gt;</description>
      <pubDate>Sat, 14 Nov 2009 10:17:04 GMT</pubDate>
      <guid>http://forum.geizhals.at/t671258,5757642.html#5757642</guid>
      <dc:creator>Hawelka</dc:creator>
      <dc:date>2009-11-14T10:17:04Z</dc:date>
    </item>
    <item>
      <title>Re: Adressdublettenprüfung</title>
      <link>http://forum.geizhals.at/t671258,5757545.html#5757545</link>
      <description>na viel Spass, dein Ansatz funktioniert vielleicht bei einer Datenbank mit ein paar Hundert Datensätze, aber wennst mal mit Daten unterschiedlicher Qualität zu tun hast und die betreffende Tabelle mehrere Millionen Einträge hat, wird man dir wohl nicht mal mehr ein müdes Lächeln schenken &lt;img src="zwinker.gif" width="16" height="19" align="absmiddle" alt=";)"/&gt;&lt;br&gt;&lt;br&gt;&lt;blockquote&gt;Hättet ihr noch weitere oder gar völlig andere Ideen, wie man halbwegs brauchbar (eine 100%-Lösung gibts es hier eh nicht) die Adressen vergleichen könnte?&lt;/blockquote&gt;&lt;br&gt;&lt;br&gt;ja, ohne Fuzzy-Suche gar nicht und da berufe ich mich auf meine Erfahrung mit ca. 20 Mio. Datensätze &lt;img src="zwinker.gif" width="16" height="19" align="absmiddle" alt=";)"/&gt;&lt;br/&gt;</description>
      <pubDate>Sat, 14 Nov 2009 09:37:09 GMT</pubDate>
      <guid>http://forum.geizhals.at/t671258,5757545.html#5757545</guid>
      <dc:creator>-Transformer2K-</dc:creator>
      <dc:date>2009-11-14T09:37:09Z</dc:date>
    </item>
    <item>
      <title>Re: Adressdublettenprüfung</title>
      <link>http://forum.geizhals.at/t671258,5757528.html#5757528</link>
      <description>na viel Spass, dein Ansatz funktioniert vielleicht bei einer Datenbank mit ein paar Hundert Datensätze, aber wennst mal mit Daten unterschiedlicher Qualität zu tun hast und die betreffende Tabelle mehrere Millionen Einträge hat, wird man dir wohl nicht mal mehr ein müdes Lächeln schenken &lt;img src="zwinker.gif" width="16" height="19" align="absmiddle" alt=";)"/&gt;&lt;br/&gt;</description>
      <pubDate>Sat, 14 Nov 2009 09:37:09 GMT</pubDate>
      <guid>http://forum.geizhals.at/t671258,5757528.html#5757528</guid>
      <dc:creator>-Transformer2K-</dc:creator>
      <dc:date>2009-11-14T09:37:09Z</dc:date>
    </item>
    <item>
      <title>Re(3): Adressdublettenprüfung</title>
      <link>http://forum.geizhals.at/t671258,5757335.html#5757335</link>
      <description>&lt;blockquote&gt;&lt;em&gt;Fuzzy-Logic&lt;/em&gt;&lt;/blockquote&gt;&lt;br&gt;Fuzzy-Suche, nicht Fuzzy-Logic!&lt;br&gt;&lt;br&gt;&lt;blockquote&gt;&lt;em&gt;kennt weder das "ß"/"ss"-Thema. noch die Tatsache, dass "st." das gleiche wie "strasse" sein kann.&lt;/em&gt;&lt;/blockquote&gt;&lt;br&gt;[ ] du hast verstanden was eine unscharfe Suche ist.&lt;br&gt;&lt;br&gt;&lt;blockquote&gt;&lt;em&gt;Wenn du mir aber verrätst, wie du mit Hilfe der Levenshtein-Distanz bereits eine perfekte Adressdubletten-Prüfung realisiert hast, wo die Anwender alle "ahhhh" gesagt haben, bist mein Held&lt;/em&gt;&lt;/blockquote&gt;&lt;br&gt;&lt;img src="crazy.gif" width="16" height="19" align="absmiddle" alt="%-)"/&gt; _Ich_ werd dir sicher nix vorbeten, aus 4 Gründen:&lt;br&gt;1.) wenn du schon nichmtal Fuzzy-Logic von der Fuzzy-Suche unterscheiden kannst, bezweifle ich dass du&lt;br&gt;2.) schon jemals etwas von unscharfer Suche gehört hast, und daraus schließe ich dass du keine Ahnung von Programmieren hast, damit ist das Projekt schon zum scheitern verurteilt und&lt;br&gt;3.) wenn ich es dir vorbeten könnte, würd ich es nicht machen, sondern selber machen.&lt;br&gt;4.) gibt es das schon. z.B. &lt;a href="http://www.dataqualityapps.de/dublettenabgleich.html" rel="noopener" target="_blank"&gt;http:/&lt;wbr/&gt;/&lt;wbr/&gt;www.dataqualityapps.de/&lt;wbr/&gt;dublettenabgleich.html&lt;/a&gt;&amp;nbsp;&amp;nbsp;Exportier mal deine CRM-DB dorthin, probiers aus und staune. Besser als dein angedachter Expertensystem-Krampf ist das Ding auf alle Fälle. Bevor du fragst was ein Expertensystem ist, da du ja keine Ahnung von Programmieren hast: &lt;a href="http://de.wikipedia.org/wiki/Expertensystem" rel="noopener" target="_blank"&gt;http:/&lt;wbr/&gt;/&lt;wbr/&gt;de.wikipedia.org/&lt;wbr/&gt;wiki/&lt;wbr/&gt;Expertensystem&lt;/a&gt;&amp;nbsp;&amp;nbsp;(aber du bist ja Beratungsresistent, also Programmier fleißig an deinem Stuß weiter).&lt;br&gt;&lt;br&gt;ad DQT: a) das gibts von mindestens 100 anderen Firmen auch b) Wird damit bei uns bei jeder Aussendung zwischen 100 und 30.000 Adressen abgegelichen -&gt; &lt;i&gt;pfunziwunzifunztatatut&lt;/i&gt; perfekt. c) Kostet sogar in der größten Lizenz weniger als 1 Tag Programmieraufwand ... Na gut ... dein Tag wird sicher nicht so viel kosten... d) also kauf das Teil und leg deine Ambitionen wieder schlafen.&lt;br&gt;&lt;br&gt;&lt;br&gt;&lt;br&gt;&lt;br&gt;&lt;br&gt;&lt;font size="-2"&gt;........ Wie kann man nur auf die Idee kommen ein Expertensystem für einen Adressabgleich zu verwenden......&lt;/font&gt;&lt;br/&gt;</description>
      <pubDate>Fri, 13 Nov 2009 23:58:56 GMT</pubDate>
      <guid>http://forum.geizhals.at/t671258,5757335.html#5757335</guid>
      <dc:creator>Capt.Nemo</dc:creator>
      <dc:date>2009-11-13T23:58:56Z</dc:date>
    </item>
    <item>
      <title>Re(2): Adressdublettenprüfung</title>
      <link>http://forum.geizhals.at/t671258,5757319.html#5757319</link>
      <description>&lt;blockquote&gt;&lt;em&gt; _das_ (und Derivate) wird für Dublettensuche verwendet, alles Andere ist&lt;br&gt;elender Murks.&lt;br&gt;&lt;/em&gt;&lt;/blockquote&gt;&lt;br&gt;&lt;br&gt;Das mag ja sein, aber hier geht es um Adressdubletten!&lt;br&gt;Abgesehen von der sehr hohen Rechenzeit, ist dieser Ansatz bei Adressmaterial einfach nicht geeignet.&lt;br&gt;Wenn jemand "Seifenstein" heisst, wird ihn wohl kaum ein Anwender als "Steinseife" getippt haben.&lt;br&gt;Außerdem ist eine Adresse feldweise unterschiedlich zu betrachten.&lt;br&gt;Bei einer PLZ sollte der Buchstabe "O" zu einer Null konvertiert werden.&lt;br&gt;Während in den Namensfelder Abkürzungen der Titel und Anreden das Problem sind.&lt;br&gt;Deine vermeintliche Patent-Lösung via Fuzzy-Logic kennt weder das "ß"/"ss"-Thema. noch die Tatsache, dass "st." das gleiche wie "strasse" sein kann.&lt;br&gt;&lt;br&gt;Wenn du mir aber verrätst, wie du mit Hilfe der Levenshtein-Distanz bereits eine perfekte Adressdubletten-Prüfung realisiert hast, wo die Anwender alle "ahhhh" gesagt haben, bist mein Held &lt;img src="smile.gif" width="16" height="19" align="absmiddle" alt=":)"/&gt;&lt;br/&gt;</description>
      <pubDate>Fri, 13 Nov 2009 23:25:48 GMT</pubDate>
      <guid>http://forum.geizhals.at/t671258,5757319.html#5757319</guid>
      <dc:creator>Hawelka</dc:creator>
      <dc:date>2009-11-13T23:25:48Z</dc:date>
    </item>
    <item>
      <title>Re: Adressdublettenprüfung</title>
      <link>http://forum.geizhals.at/t671258,5757293.html#5757293</link>
      <description>&lt;blockquote&gt;&lt;em&gt; (...) Liste (...) durchgearbeitet (...) werden herausgeschnitten (...) wortweise zerlegt (...) Anzahl der Treffer (...)&lt;/em&gt;&lt;/blockquote&gt;&lt;br&gt;Falscher Ansatz!&lt;br&gt;&lt;br&gt;&lt;a href="http://de.wikipedia.org/wiki/Fuzzy-Suche" rel="noopener" target="_blank"&gt;http:/&lt;wbr/&gt;/&lt;wbr/&gt;de.wikipedia.org/&lt;wbr/&gt;wiki/&lt;wbr/&gt;Fuzzy-Suche&lt;/a&gt; &lt;br&gt;&lt;br&gt;_das_ (und Derivate) wird für Dublettensuche verwendet, alles Andere ist elender Murks.&lt;br/&gt;</description>
      <pubDate>Fri, 13 Nov 2009 22:45:56 GMT</pubDate>
      <guid>http://forum.geizhals.at/t671258,5757293.html#5757293</guid>
      <dc:creator>Capt.Nemo</dc:creator>
      <dc:date>2009-11-13T22:45:56Z</dc:date>
    </item>
    <item>
      <title>Re(2): Adressdublettenprüfung</title>
      <link>http://forum.geizhals.at/t671258,5757246.html#5757246</link>
      <description>&lt;blockquote&gt;&lt;em&gt; Gratis Demo!&lt;br&gt;&lt;/em&gt;&lt;/blockquote&gt;&lt;br&gt;&lt;br&gt;Eh, aber ich bin selber SW-Entwickler &lt;img src="smile.gif" width="16" height="19" align="absmiddle" alt=":)"/&gt;&lt;br/&gt;</description>
      <pubDate>Fri, 13 Nov 2009 21:50:51 GMT</pubDate>
      <guid>http://forum.geizhals.at/t671258,5757246.html#5757246</guid>
      <dc:creator>Hawelka</dc:creator>
      <dc:date>2009-11-13T21:50:51Z</dc:date>
    </item>
    <item>
      <title>Re: Adressdublettenprüfung</title>
      <link>http://forum.geizhals.at/t671258,5757204.html#5757204</link>
      <description>&lt;a href="http://www.omikron.net/Dubletten-Bereinigung.html?dq=AdWords&amp;gclid=CP3K94L2iJ4CFUOFzAodH0qLqA" rel="noopener" target="_blank"&gt;http:/&lt;wbr/&gt;/&lt;wbr/&gt;www.omikron.net/&lt;wbr/&gt;Dubletten-Bereinigung.html?&lt;wbr/&gt;dq=AdWords&amp;&lt;wbr/&gt;gclid=CP3K94L2iJ4CFUOFzAodH0qLqA&lt;/a&gt; &lt;br&gt;&lt;br&gt;&lt;br&gt;Gratis Demo!&lt;br&gt;&lt;br&gt;mfg&lt;br&gt;lukas&lt;br/&gt;</description>
      <pubDate>Fri, 13 Nov 2009 21:31:42 GMT</pubDate>
      <guid>http://forum.geizhals.at/t671258,5757204.html#5757204</guid>
      <dc:creator>Paulas_Papa</dc:creator>
      <dc:date>2009-11-13T21:31:42Z</dc:date>
    </item>
    <item>
      <title>Re(2): Adressdublettenprüfung</title>
      <link>http://forum.geizhals.at/t671258,5756815.html#5756815</link>
      <description>&lt;blockquote&gt;&lt;em&gt; Bevor man sich nicht mit sowas beschäftigt hat, ahnt man ja nicht einmal, wie viele Schreibweisen es geben kann. &lt;br&gt;&lt;/em&gt;&lt;/blockquote&gt;&lt;br&gt;&lt;br&gt;Das hat auch so was menschliches, find ich &lt;img src="teeth.gif" width="16" height="19" align="absmiddle" alt="|-D"/&gt;&lt;br&gt;Eine Adresse und 5 Schreibweisen&lt;br&gt;&lt;br&gt;&lt;blockquote&gt;&lt;em&gt; Mir hat damals auch der Soundex-Algorithmus weitergeholfen. &lt;br&gt;&lt;/em&gt;&lt;/blockquote&gt;&lt;br&gt;&lt;br&gt;Der ist mir da ein bissi zu "englisch" orientiert.&lt;br/&gt;</description>
      <pubDate>Fri, 13 Nov 2009 18:37:28 GMT</pubDate>
      <guid>http://forum.geizhals.at/t671258,5756815.html#5756815</guid>
      <dc:creator>Hawelka</dc:creator>
      <dc:date>2009-11-13T18:37:28Z</dc:date>
    </item>
    <item>
      <title>Re: Adressdublettenprüfung</title>
      <link>http://forum.geizhals.at/t671258,5756638.html#5756638</link>
      <description>So eine Anwedung hab ich auch schon mal programmiert. Bevor man sich nicht mit sowas beschäftigt hat, ahnt man ja nicht einmal, wie viele Schreibweisen es geben kann. &lt;br&gt;Im Prinzip war mein Ansatz ähnlich. Also die häufigsten Unterschiede auf eine gemeinsame Schreibweise bringen, und dann vergleichen. Ausreichend idente Einträge automatisch löschen, den Rest eben nach Ähnlichkeit sortiert ausgeben für die händische Überprüfung. Mir hat damals auch der Soundex-Algorithmus weitergeholfen. &lt;br&gt;100% korrekt und 100% automatisiert gings bei mir aber natürlich auch nicht.&lt;br/&gt;</description>
      <pubDate>Fri, 13 Nov 2009 17:12:06 GMT</pubDate>
      <guid>http://forum.geizhals.at/t671258,5756638.html#5756638</guid>
      <dc:creator>Robert Craven</dc:creator>
      <dc:date>2009-11-13T17:12:06Z</dc:date>
    </item>
    <item>
      <title>Adressdublettenprüfung</title>
      <link>http://forum.geizhals.at/t671258,5756527.html#5756527</link>
      <description>Hi,&lt;br&gt;&lt;br&gt;habt ihr euch mit dem Thema schon mal beschäftigt?&lt;br&gt;&lt;br&gt;Meine Ideen dazu:&lt;br&gt;Die Basis muss mal das Land und die PLZ sein. Es werden also nur Adressen geprüft, wo diese beiden Felder mit der neu anzulegenden exakt übereinstimmen.&lt;br&gt;&lt;br&gt;Dann könnte eine Routine die neue und alle mit dem Land/PLZ übereinstimmenden Adressen "verdichten", in dem eine Liste mit Phrasen durchgearbeitet wird.&lt;br&gt;D.h.: Alle "Dr.,Doktor,Mag.,Fr.,Hr.,Ing., ....." werden mal herausgeschnitten.&lt;br&gt;Weiters: &lt;br&gt;- Alle Doppelbuchstaben werden zu einzelnen.&lt;br&gt;- Alle "ph" werden zu "f"&lt;br&gt;- Alle "ai" und "ey" werden zu "ei"&lt;br&gt;- Alle "ß" werden zu "s"&lt;br&gt;&lt;br&gt;Im Strassenfeld:&lt;br&gt;- Alle "str." und "straße" werden zu "strasse"&lt;br&gt;- Alle "pl." werden zu "platz"&lt;br&gt;- Alle "g." werden zu "gasse"&lt;br&gt;- Alle "/" werden zu blanks&lt;br&gt;&lt;br&gt;Danach:&lt;br&gt;wird jedes Feld jeder Adresse wortweise zerlegt und in eine temporäre Tabelle abgelegt.&lt;br&gt;&lt;br&gt;Zuletzt wird die Anzahl der Treffer zwischen der neuen und jeder bestehenden Adresse aus der temporären Tabelle ermittelt.&lt;br&gt;Die Summe der Treffer ergibt dann das Ranking der Vorschlagsadressen welche verdächtig ähnlich sind. Wobei hier dann auch eine Grenze einzuziehen wäre. Z.Bsp. Adressen unter n Treffer kommen gar nicht in die Liste der möglichen Dubletten.&lt;br&gt;&lt;br&gt;Hättet ihr noch weitere oder gar völlig andere Ideen, wie man halbwegs brauchbar (eine 100%-Lösung gibts es hier eh nicht) die Adressen vergleichen könnte?&lt;br&gt;&lt;br&gt;Gruß!&lt;br&gt;Hawelka&lt;br/&gt;</description>
      <pubDate>Fri, 13 Nov 2009 16:24:42 GMT</pubDate>
      <guid>http://forum.geizhals.at/t671258,5756527.html#5756527</guid>
      <dc:creator>Hawelka</dc:creator>
      <dc:date>2009-11-13T16:24:42Z</dc:date>
    </item>
  </channel>
</rss>
