О точности, надежности и валидности

Встретил в тендерной документации одной компании путаницу с понятиями точности и надежности тестов. Техническое задание, конечно, не методичка по тестированию, всей сложности содержать не может, но какую-то правду отражать должна. Давайте кратко разберемся с этими понятиями.
Руководитель практики Digital Assessment ЭКОПСИ
Юрий Шатров
Точность — тест предсказывает то, что нам нужно. Под этим определением часто имеют в виду валидность (англ. valid — обоснованный, правильный). Видов валидности очень много, главный из них — критериальная валидность. Дословно: тест должен быть связан с внешним критерием. Есть два вида внешних критерия:
— Поведение, которое пытается предсказывать тест. Поведение тоже не берется ниоткуда, оно оценивается в других инструментах — 90 / 360 градусов, центре оценки, интервью. Поэтому здесь проверяется связь результата теста с результатами инструментов уже поведенческой оценки.
— Значимые бизнес-показатели и события, которые пытается предсказывать тест. Чаще всего таким показателем становится результативность, иногда — уход из компании, факт повышения и другие объективные карьерные успехи, дисциплинарные взыскания.
В обоих случаях могут использоваться оценки за прошлый период — это наиболее частый случай. Совсем редко разработчики тестов используют т.н. предиктивный дизайн — сначала тестируют, потом спустя время смотрят, что произошло с человеком, и оценивают связь теста с событиями. Тогда это называется предиктивная валидность. Обычно предиктивная валидность теста (да и любой оценки) в 1,5–2,5 раза ниже «ректроспективной», потому что предсказывать будущее сложнее, чем основываться на прошлом.

Надежность — это помехоустойчивость теста. Есть много разных помех, ошибок измерения, которые влияют на результаты теста. На практически каждую помеху есть свой вид надежности (как и с валидностью, психометрики придумали много терминов). Основные два:
— Внутренняя согласованность отражает устойчивость теста к вероятности оценки других конструктов. Конструкт — это психологическое качество, которое оценивает тест. Иными словами, тест должен оценивать именно один конструкт, а не несколько разных. Простой пример: два вопроса — «Я люблю знакомиться с новыми людьми» и «Я люблю помогать другим людям» — относятся к общению и отношениям, но направлены на разные конструкты (Общительность и Доброжелательность). Из этих двух вопросов не получится согласованного (надежного) теста. Согласованность проверяется специальными статистическими процедурами, самая известная — альфа Кронбаха.
— Ретестовая надежность отражает устойчивость теста к изменениям в респонденте. Например, если результаты какого-то теста интеллекта зависят от настроения кандидата и меняются в течение дня — мы не можем надеяться, что результаты этого теста проявятся в другом контексте (и поэтому не можем использовать его в кадровых решениях). Проверяется повторным тестированием тех же людей через 2–6 месяцев (как сильно изменились результаты).

Критериальная валидность (aka точность) и надежность соотносятся как точность попадания и кучность попадания. Можно стрелять очень кучно (высокая надежность), но не точно, не в десятку (низкая валидность). Обратный случай — низкая надежность, но высокая валидность — в тестах практически не встречается. Таким образом, надежность — необходимое, но не достаточное условие для валидности.

Авторы
Юрий Шатров
Руководитель практики
Digital Assessment ЭКОПСИ