Оценка будущего по мнению Пола Баретта

Есть такой психометрик — Пол Баретт (Paul Barett). Он в отрасли еще с 80-х годов, успел поработать с такими мэтрами психометрики, как Пол Кляйн, Айзенк, Хоган, а сейчас работает в Когнадеве — южноафриканском провайдере с очень интересными и необычными продуктами.
Партнер, руководитель практики Digital Assessment ЭКОПСИ
Юрий Шатров
Известен он своей критикой всего и вся — факторного анализа и структурного моделирования, IRT, «Большой пятерки», тестов благонадежности, конструктной валидности и конструктов в целом, корреляции Пирсона, тестов способностей. Один из его тезисов —ассоциации оценщиков и психометриков основаны, в основном, провайдерами. А значит, требования к разработке и применению методик стопорится этими самыми провайдерами и их методологиями. Хотя наука уже давно ушла вперед, нам нужно сбросить оковы и перестать реплицировать каждый год одни и те же тесты.

В 2018 году он в очередной раз раскритиковал требования к оценке тестов от одной ассоциации и предложил свое видение «оценки будущего». И это один из самых трезвых и не одиозных тестов Баретта. Публикую со своими комментариями.

Свой подход Баретт называется прагматичным. Публикую его положения в двух частях. В общем, готовьтесь к лонгриду.

1. Инструменты оценки будущего разрабатываются на основе данных с использованием знаний из психологии, нейронауки и результатов экспериментов.
Опора на данные — один из давних трендов в оценке, про это подробно рассказывать не буду. А вот про нейросайенс Баретт, как и многие американские исследователи, загнул. Сейчас прокинуто слишком мало мостиков между нейронаукой и психометрикой. И это выливается либо в правдивое, но немасштабируемое «Мы с помощью МРТ предскажем «Большую пятерку», либо в сугубо маркетинговое «Мы измеряем экстраверсия, а она связана с кортизолом».

2. Это не самоотчетные инструменты / тесты способностей или статичные текстовые или сценарные задания (как в кейс-тестах), а динамическая игра или оценка результативности, поведения, а также лингвистический анализ активности в Интернете.
Это цимес в идеях Баретта. Если коротко, то он критикует конструкты и ту связку, которую мы создаем между тестом и поведением. Например, мы измеряем в тесте вербальные способности и заявляем, что они связаны с работой, т.к. и в работе человеку предстоит работать с текстами и понятиями. Но это связка — допущение, которое к реальности, по мнению Баретта, имеет приблизительное отношение. Все-таки сами задания в тестах способностей очень просты и непосредственно такие же задания в работе мы не выполняем. За что нас часто критикуют участники, когда пишут о том, что тест слабо связан с их типичными рабочими обязанностями.

Выход — оценивать человека либо напрямую в работе (как — Баретт не описывает), либо симулировать задачи человека в игре — в том, что называется game-based assessment (GBA). Впрочем, для меня вопрос, насколько симулированная активность в игре подобна реальным задачам — не выходим ли мы здесь просто на другой уровень абстракции))

3. Оценка основывается на тысячах наблюдений за человеком, объединенных с помощью экспертной системы в более широкие категории.
Это к теме той же «игровой» оценки. Самые продвинутые провайдеры GBA — например, Arctic Shores и Knack — оценивают не просто по результату в игре, а по каждому клику или «тапу» человека в игре. Такое большое количество «точек» в данных повышает валидность оценки.

У этого есть обратная сторона — отсутствие прозрачности оценки, из-за чего страдает пользовательский опыт. Но Баретт не стесняется и заявляет отсутствие прозрачности как преимущество.

4. Расчет происходит с помощью экспертной системы и основанных на теории алгоритмах и / или предиктивных моделях, основанных на машинном обучении.
Здесь также про data-based подход. Интересно, что Баретт упоминает экспертные системы, потенциал которых и правда недоиспользован в оценке. Лично я знаю в нашей отрасли только две экспертные системы (и те используются в функциональной диагностике, т.е. работают на пересечении с медициной).
    5. Оценка производится не по шкалам, а по типам или порядковым классам.
    Пожалуйста, это самое неожиданное среди всего, что пишет Баретт. Раскрою в его тезисах:
    • Нет доказательств, что психологические шкалы — это количественные переменные, или что между разными уровнями психологической шкалы равные интервалы. Например, мы не можем сказать, что 4 правильных ответа так же отличаются от 2, как 8 от 6. Иными словами, интервальность психологических шкал — это наше допущение, идущее из желания психологов походить на физиков (только гуманитарных), у которых переменные и правда имеют количественную «размерность».
    • Более того, психологические конструкты пришли из языка. А в языке они по умолчанию номинальны, не количественны. Когда мы думаем про другого человека — мы описываем его как «ответственного», «общительного», «умного». Но мы не помещаем эти характеристики на шкалу.

    Для примера — в своем опроснике ценностей Баретт использует модель культур спиральной динамики, то есть типов, а не шкал, как это обычно делается в опросниках ценностей. То же в мотивационном опроснике — там типы, близкие в личностным. А в когнитивном инструменте Баретт относит участника к определенному уровню обработки информации (на континууме «оперативный — стратегический» с 6 качественно различающимся градациями). И этот когнитивный инструмент на деле претендует на оценку масштаба мышления (по Эллиотту Джексу).

    6. Методология расчетов, лежащая в основе коммерческих продуктов, — это интеллектуальная собственность провайдеров, не подлежащая раскрытию.
    Мне как представителю провайдера хочется с одной стороны с этим согласиться, а с другой — без раскрытия методологии хотя бы научной части сообщества наша дисциплина развиваться не будет.

    7. Надежность измеряется только как ретестовая.
    Это продолжение мысли, что от шкал нужно отходить. Раз нет количественных шкал, а только типы, плюс оценка производится по «тысячам» наблюдений в игре — нет необходимости и даже возможности измерять надежность как внутреннюю согласованность. Тест должен доказать только то, что спустя какой-то промежуток времени человек имеет такой же тип, к которому был причислен ранее, т.е. что его результаты достаточно устойчивы.

    У ретестовой надежности есть обратная сторона. Развитие психометрики замедлится, т.к. на проверку ретестовой надежности в одной итерации разработки теста требуется 3–6 месяцев (если мы говорим про устойчивые качества; для оценки состояний другие сроки). А для создания первой коммерческой версии теста требуется 2–4 итерации.

    8.
    Методы, которые подтверждают структурную валидность — факторный анализ, SEM — не могут эффективно работать с типами или порядковыми классами.
    Это действительно так. К сожалению, Баретт не предлагает альтернативы. И лично для меня это главная преграда для применения его идей.
    9. Лучший вид валидности — предиктивная валидность, т.к. она доказывает связь теста с «внешними» событиями.
    Давно согласен с этой мыслью. Мне кажется, в нашей работе полезны только два вида валидности — очевидная, которая входит в более общее понятие «восприятие участникам», и критериальная. Конструктная валидность — умирающее понятие в оценке персонала, и её кончину уже надо признать и легализовать. Нет необходимости доказывать, что наш опросник связан с другими опросниками, если его результаты связаны с релевантным поведением. В ином случае это превращается в игру в конструкты, слабо связанную с реальностью.

    Для меня размышления Баретта про то, что текущая методология оценки персонала устарела. Из-за чего и появляются такие критические очерки и альтернативные предложения в виде GBA, предиктивной психометрики или task-based центров оценки. Но он предлагает еще более радикальную альтернативу — отказ от шкал и переход к типам или классам, которые имеют явные поведенческие корреляты. Что, конечно, тоже конструкты (как и всё, что мы формулируем в языке), но хотя бы наблюдаемые в жизни, а не только в опросниках.
    Авторы
    • Юрий Шатров
      Партнер, руководитель практики
      Digital Assessment ЭКОПСИ