Die Umsetzungsberatung

Die Rolle der Geschäftsleitung

Persönlichkeitstests: Für die Personalauswahl nur begrenzt geeignet

 

Dass unstrukturierte Interviews für die Personalauswahl untauglich sind, wurde vielfach nachgewiesen. Eine vielversprechende Alternative scheint da der Einsatz von Persönlichkeitstests zu sein: Sie verheißen wissenschaftlich fundierte Diagnosen, die zur Verbesserung von Auswahlentscheidungen beitragen könnten. Doch die gute Idee hat einen praktischen Haken: Derzeit gibt es kaum Testverfahren, die erstens für die Untersuchung von seelisch (einigermaßen) gesunden Menschen entwickelt wurden, sich zweitens für Zwecke der Personalauswahl eignen und deren Treffsicherheit drittens mit empirischen Daten nachgewiesen wurde.

  • Keine wiss. abgesicherten Verfahren
  • Diese kategorische Aussage mag verwundern, sind doch etliche Testverfahren auf dem Markt, die für sich in Anspruch nehmen, mit hoher, unfehlbarer oder noch höherer Sicherheit zwischen geeigneten und ungeeigneten Kandidaten trennen zu können. Doch nach unserer Kenntnis wurde bislang für kein deutschsprachiges Verfahren der wissenschaftliche Nachweis erbracht, dass es tatsächlich die behauptete prognostische Leistung bringt – jedenfalls nicht in einer öffentlich überprüfbaren Form. Zwar schwören die meisten Anbieter Stein und Bein auf die unübertreffliche Leistungsfähigkeit ihrer Tests, doch die Inbrunst der Beteuerung ist kein zureichender Ersatz für einen objektiven Leistungsnachweis.

  • Nachweis der Validität fehlt
  • Verfahren für wissenschaftliche und klinische Zwecke

     

    Für diesen enttäuschenden Stand gibt es natürlich Gründe. Der Großteil der heutigen Persönlichkeitstests wurde für nicht für die Personalauswahl entwickelt, sondern teils für die klinische Praxis, teils zu Forschungszwecken; erst in den letzten Jahrzehnten kamen zunehmend auch kommerzielle Tests hinzu. Der Großteil der Verfahren kommt aus dem angloamerikanischen Sprachraum. Das Problem mit fremdsprachigen Tests ist jedoch, dass beim Übersetzen ihre Normierung verloren geht. Schon kleine sprachliche Nuancen, die bei einer Übersetzung unvermeidlich sind, können dazu führen, dass Testfragen anders beantwortet werden. Oftmals müssen sogar einzelne Items wegen mangelnder Trennschärfe ausgetauscht werden. Das hat die unangenehme Folge, dass auch die gesamte Forschung zu dem amerikanischen oder englischen Original auf die deutsche Version nicht übertragbar ist. Zu vielen Tests gibt es zwar deutsche Versionen, aber es gibt nur wenige Untersuchungen zu ihrer Aussagekraft für eignungsdiagnostische Zwecke.

  • Andere Anwendungs­
    felder
  • Die klinischen Tests sind primär auf die Entdeckung psychischer Störungen von Depression über Hypochondrie bis zu Schizophrenie zugeschnitten. Für betriebliche Zwecke könnte dies allenfalls ein Nebenaspekt sein – der überdies frontal mit dem im Grundgesetz verbürgten Persönlichkeitsschutz kollidiert. Der Einsatz klinischer Tests bei der Personalauswahl ist daher nach herrschender Meinung unzulässig. Hier einige Beispiele für Testfragen aus einem der verbreitetsten klinischen Verfahren, dem MMPI (Minnesota Multiphasic Personality Inventory). Sie zielen klar auf die Entdeckung psychischer Störungen – entsprechend unangebracht wären sie für eine betriebliche Verwendung:
    "Ich bin ein besonderer Sendbote Gottes."
    "Manchmal höre ich Stimmen."
    "Oft habe ich Lust auf eine Schlägerei."
    "Ich träume viel von sexuellen Dingen."

    "Niemand versteht mich."

  • Klinische Tests sind unzulässig
  • "Zumutbarer" und aussagekräftiger als die klinischen Verfahren versprechen jene Tests zu sein, die zu allgemeinen Zwecken der Persönlichkeitsforschung entwickelt wurden. In ihrem Buch Persönlichkeitstests im Personalmanagement haben die Bochumer Psychologen Rüdiger Hossiep, Michael Paschen und Oliver Mühlhaus zahlreiche gängige Tests sowohl aus dem wissenschaftlichen Bereich als auch von kommerziellen Anbietern untersucht – mit dem verheerenden Ergebnis, dass für keinen einzigen der rund 15 untersuchten deutschsprachigen Persönlichkeitstests und -fragebögen der wissenschaftliche Nachweis erbracht ist, dass er einen nennenswerten Beitrag zur Verbesserung von Auswahlentscheidungen leistet. Das gilt auch für so angesehene und bekannte Tests wie die deutschen Versionen des 16-PF (16 Persönlichkeitsfaktoren), des California Psychological Inventory (CPI), des NEO-FFI, des EPI (Eysenck Persönlichkeitsinventar) sowie des MBTI (Myers Briggs Typenindikator).

  • Empirische Persönlichkeits­
    forschung
  • Wissenschaftliche Gütekriterien für Tests

     

    In der psychologischen Forschung haben sich über die Jahre vier zentrale Gütekriterien herausgebildet, die inzwischen ziemlich unumstritten sind. Das wichtigste von allen ist die Validität: Misst das Verfahren tatsächlich, was es zu messen vorgibt? Misst also zum Beispiel ein Intelligenztest wirklich die Intelligenz - oder misst er primär die sprachliche Fähigkeit, mit bestimmten Aufgaben zurande zu kommen?

    Bei Eignungs- und Auswahltests geht es in erster Linie um die prognostische Validität: Wie gut sagt der Test den Erfolg in der angestrebten Funktion voraus? Gemessen wird das idealerweise über die berufliche Bewährung: In welchem Umfang sind Kandidaten mit positiven Testergebnissen später auch in ihrem Job erfolgreich, und in welchem Umfang scheitern Kandidaten mit schlechten Ergebnissen? Oder härter gefragt: Gibt es überhaupt einen signifikanten Unterschied in der beruflichen Bewährung zwischen denen, die gute Ergebnisse, und denen die schlechtere Ergebnisse erzielt haben?

  • Validität:
    Gute Vorher-sage des Erfolgs
  • Das zweite wichtige Gütekriterium ist die Reliabilität. Sie misst, in welchem Umfang ein Test verlässlich ist, also bei wiederholter Durchführung (oder bei der Durchführung von Parallelversionen) übereinstimmende Ergebnisse erbringt. Reliabilität ist eine notwendige, aber keine hinreichende Voraussetzung für Validität: Die Vorhersagegüte eines Tests kann zwar nicht besser sein als seine Zuverlässigkeit, denn wenn die Ergebnisse "unscharf" sind, sind es natürlich auch die aus ihnen abgeleiteten Schlussfolgerungen.

    Doch aus einer hohen Reliabilität folgt leider nicht das Geringste über die Validität: Möglicherweise misst der Test ja mit hoher Zuverlässigkeit eine Eigenschaft oder Fähigkeit, die für den Erfolg in der jeweiligen Funktion völlig irrelevant ist. So lassen sich zum Beispiel Körpergröße und -gewicht mit höchster Reliabilität messen – nur mit der Validität, der Aussagekraft für Auswahlentscheidungen, hapert es ein bisschen.

  • Reliabilität: Verlässlichkeit der Messung
  • Das dritte Gütekriterium ist die Objektivität eines Testverfahrens. Darunter versteht man, dass das Ergebnis eines Tests unabhängig von der Person des Testleiters und den äußeren Bedingungen der Durchführung sein muss. Das ist eigentlich die "harmloseste" Anforderung, aber auf ihr bauen alle übrigen auf. Objektivität wird in aller Regel dadurch erreicht, dass sowohl die Durchführung als auch die Auswertung standardisiert sind.

  • Objektivität: kein Einfluss des Testleiters
  • Das vierte und letzte Gütekriterium schließlich wirft noch einmal eine erhebliche Hürde auf: Es ist die Normierung des Testverfahrens. Ein Testergebnis für sich genommen ist bedeutungslos und nicht interpretierbar – was besagt es schon, wenn jemand in irgendeinem Test beispielsweise 47 Punkte erzielt hat? Solange man die Skala nicht kennt, also nicht weiß, ob es 47 von 50 Punkten, 47 von 100 oder 47 von 245 Punkten sind, ist damit nichts anzufangen. Doch selbst wenn man die Skala kennt, hilft das nicht viel, solange man nicht außerdem weiß, wie viele Menschen bei diesem Test bessere oder schlechtere Ergebnisse als 47 Punkte erzielen. Mit anderen Worten, die "absoluten Testdaten" erhalten ihre Bedeutung erst durch den Vergleich mit einer Normierung: Wenn nur 2 Prozent der Bevölkerung einen Wert von 47 oder höher erreichen, ist diese Zahl völlig anders zu werten als wenn zwei Drittel der Bevölkerung auf einen solchen Wert kommen.

  • Normierung: Eichung an Vergleichs­
    gruppe

  • Change! - 20 Fallstudien Zahlreiche Fallbeispiele zu den unterschiedlichsten Typen von Change-Projekten finden Sie in meinem Buch "Change! – 20 Fallstudien zu Sanierung, Turnaround, Prozessoptimierung, Reorganisation und Kulturveränderung" (Schäffer-Poeschel, 2. erweiterte Auflage 2015). Es vermittelt Ihnen einen breiten Überblick über die unterschiedlichsten Arten von Veränderungsprozessen und zeigt Ihnen, worauf es jeweils ankommt, um Ihre Change-Vorhaben zum Erfolg zu führen.

    Mehr Informationen über das Buch "Change! – 20 Fallstudien"


  • Buch "Change!"
  •  

    Das Normierungsproblem

     

    Für die verlässliche Normierung eines Tests braucht man eine sehr große Stichprobe. So wurde zum Beispiel das "Bochumer Inventar zur berufsbezogenen Persönlichkeitsbeschreibung (BIP)", einer der besten verfügbaren Persönlichkeitsfragebögen, an einer Stichprobe von 4312 Personen normiert. Solche Größenordnungen sind notwendig, wenn man die Ergebnisse eines Probanden nicht nur an der Gesamtbevölkerung benchmarken will, sondern auch an bestimmten Teilgruppen. Für die Auswahl oder die Beratung eines Top-Managers nützt es ja wenig, wenn man weiß, dass seine Leistungsmotivation deutlich höher ist als beim Bevölkerungsdurchschnitt: Das sollte man erwarten können. Viel interessanter wäre, seine Ergebnisse mit anderen oberen Führungskräften zu vergleichen. Beim BIP ist dies möglich; seine Vergleichsnorm "Geschäftsführer / Vorstände" umfasst immerhin noch 408 Personen, seine Vergleichsnorm für Gruppen-, Team- und Abteilungsleiter sogar 1.122 Personen.

  • Riesige Stichproben erforderlich
  • Mit insgesamt 17 Teilnormen, die sich auf unterschiedliche Hierarchieebenen, Fachrichtungen und Altersgruppen beziehen, ist der BIP die große Ausnahme unter den verfügbaren Persönlichkeitsverfahren. Für den populären MBTI (Myers Briggs Typenindikator) und seine kommerziellen Abkömmlinge zum Beispiel werden keinerlei Teilnormen angeboten. Und für viele kommerzielle Verfahren liegt überhaupt keine veröffentlichte Normierung vor; man ist also darauf angewiesen, den Beteuerungen ihrer Vertreiber zu glauben – oder auch nicht.

  • Teilnormen sind selten
  • Doch selbst so detaillierte Teilnormen wie beim BIP helfen nicht weiter, wenn es um die Besetzung spezifischer Funktionen geht. Denn was hilft der Vergleich mit Angehörigen der gleichen Hierarchieebene, Altersgruppe oder Fachrichtung, wenn es im konkreten Fall um die Besetzung des Vertriebsleiters, des Controllers oder des IT-Chefs geht? Ist es tatsächlich angebracht, bei der Besetzung des Leiters eines großen Werks mit 800 Schichtarbeitern den gleichen Maßstab anzulegen wie beim Leiter der Forschung und Entwicklung, der mit einer kleinen Truppe fachlich anspruchsvoller, aber hochqualifizierter und hochmotivierter Experten arbeitet? Bei genauem Hinsehen stehen wir hier erneut vor der Frage nach der Validität: Wie aussagekräftig, das heißt wie trennscharf und wie treffsicher ist der Test für die konkrete Funktion?

  • Spezifische Anforderungen
  • Mangelnder Nachweis der Tauglichkeit

     

    Während die aus der Persönlichkeitsforschung stammenden Tests wenigstens in ihrer deutschsprachigen Version hauptsächlich wegen des fehlenden Nachweises ihrer Validität Probleme haben, ist die Situation bei den kommerziell angebotenen Testverfahren von maximaler Intransparenz gekennzeichnet. Die meisten Anbieter kommerzieller Tests nennen überhaupt keine Kennzahlen; die wenigen, die es tun, legen ihre Untersuchungen nicht offen, sodass keine Überprüfung ihrer Behauptungen möglich ist. Da aber natürlich die Anbieter die Beweislast dafür haben, dass die von ihnen angepriesenen Verfahren die Testgütekriterien erfüllen, kann man in all diesen Fällen nur feststellen, dass der geschuldete Nachweis von Aussagekraft, Trennschärfe und Vorhersagegüte nicht erbracht ist.

  • Beweislast für die Aussagekraft
  • Zu den kommerziellen Persönlichkeitstests und Fragebögen, die nach der sorgfältigen Untersuchung der Bochumer Forschungsgruppe den öffentlichen Nachweis ihrer Eignung für die Personalauswahl schuldig geblieben sind, zählen unter anderem:
  • Beweise schuldig geblieben
  • DISG-Persönlichkeitsprofil,
    HDI (Hirn-Dominanz-Instrument / Herrmann Dominance Instrument),
    DNLA (Discovery of Natural Abilities) und

    OPQ (Occupation Personality Questionnaire).

    Ebenfalls kein Nachweis der wissenschaftlichen Fundierung ist nach unserer Kenntnis veröffentlicht zu
    Insight Discovery und

    Leadership Check (beides kommerzielle MBTI -Varianten).

    Die Ursache für dieses schwache Bild dürfte sein, dass kommerzielle Testentwicklungen vor drei beinahe unüberwindlichen Hindernissen stehen: Erstens ist die Entwicklung eines Tests sehr aufwendig, insbesondere wenn es um ein so komplexes Thema wie Persönlichkeit geht. Denn bei der Testentwicklung ist nur der Anfang leicht: Während im Grunde jeder halbwegs phantasievolle Mensch plausiblen Testfragen entwerfen kann, sind die Normierung und eine saubere Validierung mit erheblichem Zeit- und Kostenaufwand verbunden. Da aber nur wenige Auftraggeber bereit sind, den erheblichen Mehraufwand für einen sauber entwickelten Test zu honorieren, liegt es für die Anbieter nahe, sich den steinigen Teil des Wegs zu ersparen und die hohe Treffsicherheit und Trennschärfe ihres Verfahrens nicht mühselig zu beweisen, sondern stattdessen einfach zu behaupten – mit wortreichen Hinweisen auf exzellente Ergebnisse, ihre langjährige Erfahrung und auf zahlreiche hochzufriedene Kunden im In- und Ausland.

  • Entwicklung solider Tests ist teuer
  • Zum zweiten gibt es einen unauflösbaren Widerspruch zwischen der Exklusivvermarktung eines Tests und der Bestätigung seiner Validität durch neutrale Studien. Die wissenschaftliche Überprüfung und Anerkennung eines Verfahrens erfordert nun einmal die weitgehende Offenlegung von Methoden und Befunden. Wer seine Investition durch Geheimhaltung und teure Lizenzvergaben zu schützen versucht, erweckt damit unweigerlich den Eindruck von Geheimniskrämerei und bleibt einen nachprüfbaren Validitätsnachweis schuldig.

  • Interessen­
    konflikt
  • Begrenzter Zusatznutzen

     

    Zum dritten schließlich legen "ehrliche" Validitätsdaten in durchaus ernüchternder Form die Grenzen psychologischer Eignungsdiagnostik offen. Sie führen allen, die die Zahlen zu lesen verstehen, vor Augen, dass sich diese Tests keineswegs dazu eignen, "die Spreu vom Weizen zu trennen". Selbst die besten von ihnen bewirken lediglich, dass sich in dem ausgesiebten Häufchen ein bisschen mehr Weizen und ein bisschen weniger Spreu befindet. Das mag durchaus einen wirtschaftlichen Wert besitzen, aber so richtig begeisternd ist es dennoch nicht.

    Zwar ist keineswegs erwiesen, dass andere Verfahren – vom Assessment Center bis zu strukturierten Auswahlinterviews – eine höhere Aussagekraft besitzen. Und die Testpsychologen mögen es als unfair empfinden, dass sie abgestraft werden, weil sie als einzige die Grenzen ihrer Erkenntnis offen legen. Andererseits kann dies kein Grund sein, ihnen "mildernde Umstände" zuzubilligen und ihre Verfahren trotz eines sehr begrenzten prognostischen Nutzens zu verwenden.

  • Begrenzter prognostischer Nutzen
  • Das prinzipielle Problem bei allen Testverfahren ist, dass sie nicht auf die Anforderungen der konkreten Position zugeschnitten sind. Zwar ist es prinzipiell möglich, spezifische Normen für spezielle Funktionen – etwa für Softwareentwickler oder Pharmareferenten – entwickeln und validieren zu lassen. Aber das lohnt sich allenfalls bei einem ebenso großen wie regelmäßigen Einstellungsbedarf für ein ganz bestimmtes Anforderungsprofil. Doch selbst hier ist fraglich, wie hoch ihr Zusatznutzen ist, also das, was in der Psychologie als "inkrementelle Validität" bezeichnet wird: Um wieviel verbessert ihr Einsatz die Auswahlentscheidung? Denn Tests werden ja in der Regel nicht als einziges Verfahren eingesetzt, sondern in Ergänzung zu Interviews, Zeugnissen, Referenzen etc. Deshalb ist die eigentlich entscheidende Frage: Was ist der marginale Nutzen der Tests – um wieviel werden Auswahlentscheidungen durch sie besser?

  • Fraglicher Grenznutzen
  • Solange sie nicht derart "maßgeschneidert" sind, prüfen all diese Tests nicht die Eignung für eine spezielle Aufgabe ab, sondern so etwas wie eine "allgemeine mentale Fitness". Je spezieller die Anforderungen des jeweiligen Jobs, desto sicherer gehen Tests an diesen Besonderheiten vorbei. Das ist fatal, denn ein gutes Auswahlverfahren müsste sich genau an jenen Faktoren orientieren, die in der spezifischen Funktion über Erfolg oder Misserfolg entscheiden. Das heißt in der Konsequenz: Persönlichkeitstests liefern allenfalls ergänzende Informationen für die Auswahlentscheidung, die zudem wegen ihrer begrenzten Trennschärfe und Validität von begrenztem Nutzen sind. Oder, etwas deutlicher ausgedrückt: Man kann sie sicherlich einsetzen, ohne Schaden anzurichten, aber man kann es auch lassen, ohne viel an relevanter Information zu verlieren.

  • Allenfalls ergänzende Informationen
  • Literatur:
    Hossiep, R.; Paschen, M.; Mühlhaus, O. (2000): Persönlichkeitstests im Personalmanagement; Verlag für Angewandte Psychologie (Göttingen)

    Hossiep, R.; Mühlhaus, O. (2015): Personalauswahl und -entwicklung mit Persönlichkeitstests; Hogrefe (Göttingen)

  • Literatur

  • Sie haben gerade ein Change-Projekt, bei dem es um derartige Themen geht? Oder eine verwandte Fragestellung, zu der Sie fachkundige Unterstützung oder eine kompetente Hintergrund-Beratung suchen? Dann sprechen Sie uns gerne an!

    Link zum Kontaktformular

    oder direkte Mail an w.berner(at)umsetzungsberatung.de

    oder Telefon +49 / 9961 / 910044

  • Wir unterstützen Sie gern!
  •  


    Verwandte Themen:

    Personalauswahl
    Anforderungsprofile

    Kompetenzmodelle
    Trainierbarkeit von Fähigkeiten

    Plagiate dieser Website werden automatisiert erfasst und verfolgt.