Auf der Userkonferenz im Juni bei Schott in Mainz habe ich die neue Funktion Recode vorgestellt und dabei die Option, Texte, die sich um weniger als x Prozent unterscheiden, als gleich anzusehen und zusammenzufassen. Dabei tauchte die Frage auf, ob sich die x Prozent auf den kürzeren oder den längeren Text beziehen. Dazu habe ich ein kleines Experiment mit Texten unterschiedlicher Länge durchgeführt. Der kürzere Text darf dabei höchstens so viele Zeichen weniger haben wie x Prozent des längeren Textes ausmachen. Ich möchte in meinem Test x mit 25 wählen, also Änderungen, die bis zu 25% der Zeichen umfassen als gleich ansehen. So habe ich die nebenstehende Spalte erstellt. Der erste Text enthält 12 Zeichen, 25% davon sind 3. Daher habe ich einen Text mit 9 und einen mit 15 Zeichen eingetragen
Wie man am Ergebnis sieht, werden der zwölf- und der fünfzehnstellige Text zusammengefasst, der maximal erlaubte Unterschied wird also anhand des kürzeren Textes bestimmt. Das gilt auch für Vergleiche, die mehrere ähnliche unterschiedlicher Länge betreffen.
Fügt man noch eine 16-stellige Ziffernfolge hinzu, wird wieder nur dieselbe Gruppierung wie vorher gebildet.
Wie man bei genauem Hinsehen feststellt, werden die Texte vor dem Vergleich sortiert. Die ersten Texte, auf die das Kriterium zutrifft werden dann gruppiert, nicht unbedingt die mit der geringsten Unterscheidung!
Die Unterstützung, die diese Funktion bietet, ist schon enorm, ganz unkritisch kann man sie nicht anwenden.