Известен он своей критикой всего и вся — факторного анализа и структурного моделирования, IRT, «Большой пятерки», тестов благонадежности, конструктной валидности и конструктов в целом, корреляции Пирсона, тестов способностей. Один из его тезисов —ассоциации оценщиков и психометриков основаны, в основном, провайдерами. А значит, требования к разработке и применению методик стопорится этими самыми провайдерами и их методологиями. Хотя наука уже давно ушла вперед, нам нужно сбросить оковы и перестать реплицировать каждый год одни и те же тесты.
В 2018 году он в очередной раз
раскритиковал требования к оценке тестов от одной ассоциации и предложил свое видение «оценки будущего». И это один из самых трезвых и не одиозных тестов Баретта. Публикую со своими комментариями.
Свой подход Баретт называется прагматичным. Публикую его положения в двух частях. В общем, готовьтесь к лонгриду.
1. Инструменты оценки будущего разрабатываются на основе
данных с использованием
знаний из психологии,
нейронауки и
результатов экспериментов.
Опора на данные — один из давних трендов в оценке, про это подробно рассказывать не буду. А вот про нейросайенс Баретт, как и многие американские исследователи, загнул. Сейчас прокинуто слишком мало мостиков между нейронаукой и психометрикой. И это выливается либо в правдивое, но немасштабируемое «Мы с помощью МРТ предскажем «Большую пятерку», либо в сугубо маркетинговое «Мы измеряем экстраверсия, а она связана с кортизолом».
2. Это не самоотчетные инструменты / тесты способностей или статичные текстовые или сценарные задания (как в кейс-тестах), а
динамическая игра или
оценка результативности,
поведения, а
также лингвистический анализ активности в Интернете.
Это цимес в идеях Баретта. Если коротко, то он критикует конструкты и ту связку, которую мы создаем между тестом и поведением. Например, мы измеряем в тесте вербальные способности и заявляем, что они связаны с работой, т.к. и в работе человеку предстоит работать с текстами и понятиями. Но это связка — допущение, которое к реальности, по мнению Баретта, имеет приблизительное отношение. Все-таки сами задания в тестах способностей очень просты и непосредственно такие же задания в работе мы не выполняем. За что нас часто критикуют участники, когда пишут о том, что тест слабо связан с их типичными рабочими обязанностями.
Выход — оценивать человека либо напрямую в работе (как — Баретт не описывает), либо симулировать задачи человека в игре — в том, что называется game-based assessment (GBA). Впрочем, для меня вопрос, насколько симулированная активность в игре подобна реальным задачам — не выходим ли мы здесь просто на другой уровень абстракции))
3. Оценка основывается на
тысячах наблюдений за человеком, объединенных с помощью
экспертной системы в более широкие категории.
Это к теме той же «игровой» оценки. Самые продвинутые провайдеры GBA — например, Arctic Shores и Knack — оценивают не просто по результату в игре, а по каждому клику или «тапу» человека в игре. Такое большое количество «точек» в данных повышает валидность оценки.
У этого есть обратная сторона — отсутствие прозрачности оценки, из-за чего страдает пользовательский опыт. Но Баретт не стесняется и заявляет отсутствие прозрачности как преимущество.
4. Расчет происходит с помощью
экспертной системы и
основанных на теории алгоритмах и / или
предиктивных моделях,
основанных на машинном обучении.
Здесь также про data-based подход. Интересно, что Баретт упоминает экспертные системы, потенциал которых и правда недоиспользован в оценке. Лично я знаю в нашей отрасли только две экспертные системы (и те используются в функциональной диагностике, т.е. работают на пересечении с медициной).