Is de leerling-enquete op middelbare scholen evidence-based?

“Ik zou volgend jaar weer les willen hebben van deze docent : Score 7,74 Benchmark 7,02”

Een willekeurige vraag uit een enquête waarin leerlingen worden gevraagd om de verdiensten van hun docent te beoordelen. Maar welke betekenis kan gegeven worden aan deze informatie? Slaat de score van 7,74 op een goede docent? Is het ook significant beter dan bijvoorbeeld de 7,02 benchmark score? En wat maakt het dat een leerling deze vraag positief beantwoordt? Zijn dat puur de didactische kwaliteiten van de docent? Of spelen andere, niet-onderwijs gerelateerde, zaken hier ook een rol bij?

Naar het onderwerp ‘docent-leerling-enquêtes’ (in Engelstalige landen SET genoemd, ‘Student Evaluation of Teaching’) is de afgelopen decennia veel wetenschappelijk onderzoek verricht. In dit artikel vat ik de meest recente visies op de SET samen, waarbij ik ook inga op de bruikbaarheid ervan voor het voortgezet onderwijs.

Correlatie ontbreekt

Een recent, en nu al veelvuldig aangehaald, onderzoek is dat van Uttl [1] uit 2016. In dit meta-onderzoek worden eerdere onderzoeken naar de validiteit van SET’s opnieuw geanalyseerd. En de conclusie is verrassend. De resultaten van een leerling-enquete blijken níet te correleren met de kwaliteit van de docent en de kwaliteit van zijn of haar lessen. De onderzoekers geven geen uitsluitsel over wat een leerling-enquête dan wél meet.

Our up-to-date meta-analysis of all multisection studies revealed no signicant correlations between the SET ratings and learning. Bob Uttl”

De conclusie van Uttl is geheel in lijn met het al wat oudere onderzoek van Zabaleta [2]. Ook volgens Zabaleta zijn de leerling-evaluaties amper gekoppeld aan de behaalde leerresultaten.

“Examining just face-to-face classes, the power of SETs in explaining student learning outcomes drops significantly. Craig Galbraith“

Een ander onderzoek moet in dit kader ook vermeld worden. Namelijk dat van Galbraith uit 2011 [3]. Hij vindt dat vooral bij de standaard lessituatie, zoals in het middelbaar onderwijs vrijwel altijd het geval is, de voorspellende waarde van leerling-enquêtes laag is.  Daarnaast zag hij dat de beste docenten vaak gemiddelde beoordeeld werden. In de discussie noemt Galbraith de mogelijkheid van bewuste of onbewuste manipulatie door de docent ( denk aan ‘teach tot the test’, het optreden van cijferinflatie, of het charisma van de docent) als mogelijke verklaring voor deze afname. In een klaslokaal kunnen andere factoren dan de kwaliteit van het lesgeven de enquêteresultaten sterk beïnvloeden.

Bias in de resultaten

Ook rondom deze ongewenste beïnvloeding van enquêteresultaten, ook wel ‘bias’ genoemd, heeft veel wetenschappelijk onderzoek plaatsgevonden. Zo benoemen meerdere onderzoeken het bestaan van een genderbias. Zowel in de recente onderzoeken van Hunt (2015) [5], Boring (2017) [6] als Mitchell (2018) [7] worden sterke aanwijzingen gevonden dat vrouwen structureel lagere beoordelingen ontvangen dan mannen, ook wanneer gecompenseerd is voor alle andere parameters.

We contend that women are evaluated differently in at least two ways: intelligence/competence and personality. Kristina Mitchell”

Een recent en uitgebreid onderzoek van Zölitz [8], uitgevoerd op de universiteit van Maastricht, gaat nog een stap verder in haar bevindingen. Niet alleen worden vrouwen in het algemeen lager beoordeeld, maar zijn het vooral de mannelijke studenten die het onderscheid maken tussen de seksen. Dit kan tot grote verschuivingen leiden in klassen die voor een groot deel uit jongens bestaan (denk bijvoorbeeld aan de technische vakken).

Ook andere, al dan niet persoonlijke, eigenschappen hebben invloed op de scores van de leerling-enquêtes. Zonder hier dieper op in te gaan geef ik een aantal onderzoeksresultaten:

  • De leeftijd van de docent [9],[10]: jongere docenten scoren hoger
  • Het uiterlijk van de docent [11]: aantrekkelijke, goedgeklede en vriendelijke docenten scoren hoger
  • Het vak dat gegeven wordt [8],[12],[13],[14]: natuurwetenschappelijke en kwantitatieve vakken (wiskunde) scoren lager
  • De grootte van de klas [15]: grotere klassen leiden tot lagere scores

Daarnaast blijken enquêteresultaten voor een groot gedeelte bepaald te worden door de reeds aanwezige motivatie (Uttl [14]). Dit zou, op middelbare scholen, tot verschillen kunnen leiden wanneer keuzevakken en profielvakken worden vergeleken met verplichte vakken (wiskunde, Nederlands, Engels).

“…prior interest in a course is one of the strongest predictors of SET ratings, Bob Uttl”

Een leerling is geen student

De bruikbaarheid van een leerling-enquête of SET is gebaseerd op de aanname dat de geënquêteerde, de student, een goed onderscheidend vermogen bezit waar het de kwaliteit van het genoten onderwijs betreft. Zoals ook al uit het voorgaande valt af te leiden is het al dan niet bestaan van dit onderscheidend vermogen nog verre van aangetoond.

Vrijwel alle genoemde onderzoeken zijn uitgevoerd met de (academische) student als doelgroep. In een uitgebreid meta-onderzoek [16] zet Spooren vraagtekens bij de vaardigheden van de student. Het gevaar, stelt hij, ligt erin dat de enquêtes verworden tot niet veel meer dan zogenaamde “happy forms”, tevredenheidsonderzoekjes of personality-wedstrijden.

“Teacher performance and the quality of teaching could thus be defined as the extent to which student expectations are met, thus equating student opinions with knowledge. Pieter Spooren”

Wanneer studenten al worstelen, hoe moeten de beoordelingsvaardigheden van tieners dan ingeschat worden? De mate waarin een leerling of student zijn of haar eigen voortgang in het leren kan inschatten is sterk afhankelijk van de ontwikkeling en intelligentie van deze leerling, stelt Uttl [1]. Een gemiddelde leerling heeft nog niet de zelfontwikkeling van een gemiddelde student. Daarnaast zal de intelligentie van de gemiddelde middelbare scholier logischerwijs lager zijn dan die van de gemiddelde academische student. Het lijkt zeer aannemelijk dat de resultaten van een leerling-enquête met minstens zo veel reserve bekeken zal moeten worden als van een student-enquête.

Doceren is vooral ook mensenwerk

Zowel Zabaleta als Spooren wijzen op het belang van het creëren en onderhouden van een band tussen de docent en de student. En dat speelt bij een middelbaar scholier alleen maar een grotere rol, vergeleken met de student. Het belang van betrokkenheid van de leerling bij zijn of haar eigen leerproces staat daarnaast boven elke twijfel. Feedback van de leerling op het handelen van de docent kan enorm waardevol zijn. De vraag is echter of feedback in de vorm van een enquête iets wezenlijks toevoegt aan deze interpersoonlijke feedback. Kan de persoonlijke relatie tussen docent en leerling objectief vastgelegd worden, op een schaal van 1 tot 5?

“Administering SET in this way depersonalizes the individual relationship between teachers and their students. Pieter Spooren”

Conclusie

Recent wetenschappelijk onderzoek toont aan dat het heel moeilijk is, zo niet onmogelijk, om de kunde van een docent te meten met behulp van leerling-enquêtes. Leerling-enquêtes zijn daarentegen wel gevoelig voor factoren die geen rol zouden mogen spelen. Met name het waarneembare verschil in de beoordeling tussen mannen en vrouwen baart zorgen.

“Student evaluations, like identity cards, are non-transferable and cannot be used to compare teachers. Francisco Zabaleta”

Een leerling-enquête kan een individuele docent heel waardevolle nieuwe inzichten geven, die gebruikt kunnen worden om het eigen onderwijs beter aan te laten sluiten op de doelgroep. Zowel Zabala als Spooren wijzen echter op het gevaar van de dubbele rol die deze enquêtes hebben gekregen. Naast de formatieve en persoonlijke functie worden enquêtes ook vaak ingezet binnen een summatief en kwantitatief kader. Als instrument om de prestaties van een individuele docent naast een meetlat of benchmark te kunnen leggen. Of door middel van het vergelijken van scores van verschillende docenten. Uttl [14] benoemt  specifiek het gevaar dat schuilt in het vergelijken van scores bij verschillende vakken. Vooral zaakvakken en natuurwetenschappelijke vakken kunnen dan afwijkingen naar beneden verwachten. Zowel Uttl [1] als Zabaleta [2] adviseren om de scores van een leerling-enquête niet summatief te gebruiken.

Het goed interpreteren van de resultaten van een leerling-enquête vereist specifieke kennis en training. Elisabeth Barre wijst hier ook expliciet op, in haar blog ‘Research on Student Ratings Continues to Evolve. We Should, Too’. Deze expertise is niet standaard voorhanden op een middelbare school.

Als de effectiviteit van leerling-enquêtes zo in twijfel wordt getrokken door de academische wereld, waarom worden ze op veel onderwijsinstellingen, ook in het voortgezet onderwijs, dan nog steeds ingezet? Spooren zoekt de verklaring in de wens van onderwijsinstellingen om zichzelf te presenteren als een transparante en kwaliteitsgerichte organisatie. Meten is immers weten. Maar wát meet je eigenlijk? Hou je jezelf zo geen lachspiegel voor? De auteur van de blog ‘Student evaluations of teaching effectiveness tell us nothing about teaching effectiveness’ kwam tot dezelfde conclusie.

Wil je jezelf als school presenteren als een ‘evidence-based’ organisatie, dan ontkom je er niet aan om de leerling-enquête, en de daarbij gehanteerde procedures, zeer kritisch tegen het licht te houden.

“These ndings suggest that institutions focused on student learning and career success may want to abandon SET ratings as a measure of faculty’s teaching effectiveness. Bob Uttl”

Terug naar de vraag uit de enquête van het begin van dit artikel:

“Ik zou volgend jaar weer les willen hebben van deze docent”

Gelukkig interpreteerden al mijn eindexamenkandidaten deze vraag niet naar de letter. Want iedereen hoopte natuurlijk vooral dat ze volgend jaar van me af zouden zijn.

Bronnen:

[1] Uttl, B., White, C. A., & Gonzalez, D. W. (2016). Meta-analysis of faculty’s teaching effectiveness: Student evaluation of teacher ratings and student learning are not related. Studies in Educational Evaluation 54, 22-42.

[2] Zabaleta, F. (2007). The use and misuse of student evaluation of teaching. Teaching in Higher Education, 12, 55–76

[3] Galbraith, C., Merrill, G., & Kline, D. (2012). Are student evaluations of teaching effectiveness valid for measuring student outcomes in business related classes? A neural network and Bayesian analyses. Research in Higher Education, 53, 353–374.

[5] MacNell, Lillian, Adam Driscoll, and Andrea N. Hunt. 2015. “What’s in a Name:Exposing Gender Bias in Student Ratings of Teaching.” Journal of Collective Bargaining in the Academy Volume 0: Article 53

[6] Boring, Anne. 2017. “Gender Biases in Student Evaluations of Teaching.” Journal of Public Economics 145 (January): 27–41.

[7] Kristina M. W. Mitchell, Jonathan Martin (2018). Gender Bias in Student Evaluations Political Science and Politics 51(3):1-5 

[8] Mengel, Friederike, Jan Sauermann, and Ulf Zölitz (2018).Gender Bias in Teaching Evaluations  Journal of the European Economic Association 16

[9] Michael A. McPherson, R. Todd Jewell and Myungsup Kim (2009). What Determines Student Evaluation Scores? A Random Effects Analysis of Undergraduate Economics Classes, Eastern Economic Journal Vol. 35, No. 1, pp. 37-51

[10] Shauna W. Joye and Janie H. Wilson (2015). Professor Age and Gender Affect Student Perceptions and Grades, Journal of the Scholarship of Teaching and Learning, Vol. 15, No. 4, pp.126-138

[11] Regan A.R. Gurung & Kristin Vespia (2007). Looking Good, Teaching Well? Linking Liking, Looks, and Learning, Teaching of Psychology, 34:1, 5-10

[12] Basow, S. A., & Montgomery, S. (2005). Student ratings and professor self-ratings of college teaching: Effects of gender and divisional affiliation. Journal of Personnel Evaluation in Education, 18, 91–106.

[13] Beran, T., & Violato, C. (2005). Ratings of university teacher instruction: How much do student and course characteristics really matter? Assessment and Evaluation in Higher Education, 30, 593–601

[14] Uttl B, White CA, Morin A (2013). The Numbers Tell It All: Students Don’t Like Numbers! PLoS ONE 8(12): e83443. https://doi.org/10.1371/journal.pone.0083443

[15] Bedard, K., & Kuhn, P. (2008). Where class size really matters: Class size and student ratings of instructor effectiveness. Economics of Education Review, 27, 253–265.

[16] Pieter Spooren, Bert Brockx, and Dimitri Mortelmans (2013). On the Validity of Student Evaluation of Teaching:The State of the Art, review of Educational Research, Vol. 83, No. 4, pp. 598–642

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *