Я нашел такие примеры. Например,
метрики эффективности (KPI). Как мы знаем, годовые планы и, соответственно, оценки по их выполнению зависят от рыночной ситуации, геолокации, амбиций руководителя. Цель KPI — удерживать и вознаграждать сотрудников, а не иллюстрировать настоящую эффективность. Итог — распределение оценок по эффективности скошено, практически у всех «A» и «B». Поэтому в организационной психологии есть точка зрения, что
рейтинги эффективности не отражают эффективность.
Или другой пример —
надежность измерения. Это то, в какой мере инструмент оценки измеряет какое-то конкретное качество, а не смешивает всё в одну кучу. Можно погнаться за очень высокой надежностью и в итоге обесценить эту метрику. Допустим, девушка хочет оценить, в какой мере её молодой человек годится на роль жениха. Она хорошо понимает, что такое надежность и валидность. Тогда девушка может искусственно повысить надежность своего измерения, задав большое количество одинаковых вопросов или поместив молодого человека в одинаковые ситуации. Итог — её впечатление будет очень узким, недостаточно объемным. Собственно, вопросы-парафразы из психологических тестов — то же самое. Если их слишком много, надежность уже не отражает «настоящую» надежность.
Еще одна закономерность, связанная с надежностью, — она тем больше, чем больше замеров мы произвели. Например, чем больше вопросов в тесте задали. В итоге у нашей героини появляется другой соблазн — замучить своего избранника вопросами и «пробами». Причем эти вопросы, в отличие от предыдущего примера, могут быть абсолютно разными. Просто мы сделали такое количество попыток, что какие-то да сработали. Мы сделали 100 выстрелов, но попали только 20. Получается надежное измерение, но ценой времени. Если перекладывать на реалии HR — таким образом снижается шанс, что кандидат дойдет до конца воронки. Это делает метрику надежности в данном случае не только неточной, но и потенциально вредной.
Теперь
валидность. Если надежность — это «кучность» стрельбы, то валидность это близость замера к центру мишени. К тому качеству, которое мы хотим измерить. Допустим, для девушки очень важно, чтобы молодой человек в будущем стал заботливым отцом. В этом случае такие ситуации, как романтический вечер, поездка к родителям, столкновение с хулиганами, будут косвенными замерами. В какой-то мере они будут давать ответ на искомый вопрос, но впрямую — нет. А вот обсуждение детей, знакомство с друзьями с детьми — более прямые и валидные замеры. Так вот, валидность тоже можно искусственно — и в ущерб другим метрикам — повысить. Это стало возможно благодаря возросшим мощностям вычислительных устройств (эвээм). Допустим, какой-то стартап определяет по взгляду склонность к «заботливому отцовству» (привет, «Черное зеркало»). По моему опыту — аналитики, разрабатывающие подобное, со временем настолько увлекаются максимизацией валидности, что забывают про всё остальное. Например, про надежность, включая ретестовую, про оцениваемый конструкт; наконец, переобучают, т.е. делают модель подходящую только для определенной выборки, но сложно перекладываемую на остальные выборки. В итоге девушка получит оценку заботливости, но что за ней лежит — решительно непонятно.
С другой стороны — если не возводить метрики в цели, то как «делать хорошо», как чего-то достигать? Я, конечно, про оценку:
— Нужно ставить разумные требования. Надежность в 0,6–0,7 и валидность в 0,15 — кажется вполне адекватной планкой. (В перфомансе этот принцип нельзя перенести, т.к. цель KPI — максимизировать производительность. Хотя т.н. бирюзовый уровень культуры (по спиральной динамике) говорит нам о том, что можно и вообще компании работают не ради денег))
— Нужно иметь много метрик, чтобы они уравнивали друг друга.