WZ-Code Matcher Benchmark Report

21 January 2026

WZ-2025 (Wirtschaftszweigklassifikation 2025) ist die deutsche Umsetzung der NACE-Codes, die ein standardisiertes Klassifizierungssystem für wirtschaftliche Aktivitäten bietet, das in ganz Deutschland verwendet wird. Es ermöglicht eine konsistente Kategorisierung von Geschäftsaktivitäten zu statistischen, regulatorischen und analytischen Zwecken.

Wir führen die WZ-Code-Matchern FirmenData - Basis und FirmenData - Premium ein, die durch fortschrittliche wissenschaftliche Methoden entwickelt wurden, um eine überlegene Klassifizierung von Geschäftsaktivitäten zu liefern. Diese Modelle sind speziell für deutschsprachige Geschäftsbeschreibungen trainiert und nutzen domänenspezifische linguistische Muster und ökonomische Terminologie. Unser Ansatz kombiniert strenge statistische Analysen mit modernsten maschinellen Lerntechniken und positioniert diese Lösungen als branchenführende Werkzeuge für eine genaue und zuverlässige Kategorisierung wirtschaftlicher Aktivitäten auf dem deutschen Markt.

Dieser Bericht vergleicht die WZ-Code-Matcher von FirmenData (Basis und Premium) mit weit verbreiteten Alternativen: dem Prompting führender Large Language Models (LLMs) und dem offiziellen Klassifizierungsservice (Klassifikationsserver).

Starten Sie mit unserem WZ-Code-Finder!

WZ-Bench (n=80)

Jedes System wird mit einem zusammengesetzten Gesamtscore (0 bis 100) bewertet, der sowohl Korrektheit als auch Rankingqualität belohnt. Der Gesamtscore wird unter Verwendung von fünf komplementären Signalen berechnet:

Methodik

Unsere Bewertung verwendet wissenschaftliche statistische Methoden, um die Modellleistung streng zu beurteilen. Wir nutzen etablierte Metriken aus der Informationsbeschaffungs- und Klassifizierungsforschung, um objektive und reproduzierbare Vergleiche zwischen den Modellen von FirmenData und alternativen Ansätzen zu gewährleisten. Diese methodische Strenge bietet zuverlässige Einblicke in die relativen Stärken der einzelnen Systeme.

Datensatz-Design

Der Benchmark besteht aus 80 deutschsprachigen Geschäftszweck-Stichproben, die über vier Eingabetypen ausgeglichen sind:

Organisch: zufällig ausgewählte reale Geschäftszwecke
Synthetisch (einzelne Aktivität): eine enge, spezifische Aktivität
Synthetisch (mehrere Aktivitäten, gleiche Domäne): mehrere Aktivitäten innerhalb einer Domäne
Synthetisch (mehrere Aktivitäten, unterschiedliche Domänen): mehrere Aktivitäten über verschiedene Branchen hinweg

Dieses Design deckt bewusst sowohl einfache als auch realistisch komplexe Unternehmensbeschreibungen ab. Alle Stichproben sind in deutscher Sprache verfasst, was die Zieldomäne für unsere Modelle widerspiegelt, die speziell für die deutsche Klassifizierung von Wirtschaftsaktivitäten trainiert und optimiert wurden.

Bewertungssignale

Weighted Recall Score: misst, wie viel der Referenzrelevanzmasse von den vorhergesagten Codes erfasst wird (höher gewichtete Referenzcodes sind wichtiger)
Overlap Score: misst den Anteil der vorhergesagten Codes, die auch im Referenzsatz vorhanden sind
Top 1 Hit Score: prüft, ob der wichtigste Referenzcode im vorhergesagten Satz erscheint (Hauptaktivität ist am wichtigsten)
MRR Score (Mean Reciprocal Rank): belohnt die frühe Platzierung relevanter Codes im vorhergesagten Ranking
Rank Correlation Score: berechnet die normalisierte Spearman-Rangkorrelation zwischen Referenz- und Zielrankings

Höhere Scores weisen auf eine bessere Leistung bei allen Metriken hin.

Signal Performance Vergleich

Zukünftige Arbeit

Wir setzen uns dafür ein, das Feld der Klassifizierung von Geschäftsaktivitäten voranzutreiben und unsere Forschung der breiteren Gemeinschaft zugänglich zu machen:

Wir werden den WZ-Bench-Datensatz und das Bewertungssystem als Open Source zur Verfügung stellen, um reproduzierbare Forschung zu ermöglichen und Community-Beiträge zu erleichtern.
Wir werden den Benchmark auf verschiedene Sprachen ausdehnen, um die Bewertung mehrsprachiger Klassifizierungssysteme zu ermöglichen und die internationale Kartierung von Geschäftsaktivitäten zu unterstützen.
Wir werden den Benchmark-Datensatz erweitern, um zusätzliche Grenzfälle, branchenspezifische Szenarien und komplexe domänenübergreifende Geschäftsbeschreibungen aufzunehmen, um die Bewertung der Robustheit weiter zu verbessern.