08/05/2026
Давно хотела это написать, но всё откладывала, потому что тема непростая, и если делать её по-честному, надо не просто «высказать мнение», а реально сесть и разобрать исследования.
И, вот, я всё-таки заморочилась.
Перечитала мета-анализы, посмотрела, что говорят классические исследования и что изменилось в последних обзорах, и собрала для себя целостную картину.
Получилась большая, местами занудная, но очень важная статья про инструменты оценки людей.
Если коротко - волшебной таблетки нет.
Если не коротко - ниже.
Осторожно: дальше будет много букв, немного цифр и чуть меньше иллюзий.
Можно ли измерить человека «точно на 100%»? Что на самом деле умеют инструменты оценки кандидатов и сотрудников
Это один из самых частых и самых опасных вопросов в оценке персонала. Опасный он не потому, что его не надо задавать, а потому, что за ним почти всегда стоит скрытая надежда: вдруг всё-таки существует один инструмент, один тест, одно интервью, один assessment center, одна «волшебная батарея», которая позволит, наконец, перестать ошибаться в людях.
Научно честный ответ звучит не очень удобно: нет, стопроцентно точного инструмента для оценки людей не существует, и проблема здесь не только в качестве самих методов, но и в природе того, что мы вообще пытаемся измерить.
Работа сложна, поведение человека меняется от контекста, сами критерии успешности часто неточны, а любая валидность в отборе - это всегда вероятность, а не приговор. Именно поэтому профессиональная психометрия и I/O psychology давно живут не в логике «найти идеальный тест», а в логике собрать наиболее обоснованную комбинацию инструментов под конкретную задачу.
Сначала важно договориться о языке. Когда исследователи пишут, что валидность метода равна, например, .42 или .28, это не означает «42% точности» или «28% правильных решений».
Обычно речь идёт о criterion-related validity, то есть о корреляции между результатом инструмента и последующей эффективностью на работе.
Даже очень хороший инструмент не «угадывает человека насквозь», а лишь даёт более или менее сильный статистический сигнал.
У корреляции .42 квадрат корреляции составляет примерно 18% объяснённой дисперсии, а это уже на практике полезно, но это очень далеко от фантазии про «полную прозрачность» человека.
Более того, сами критерии успеха - например, оценки руководителя - тоже несовершенны, а значит, потолок любой точности ограничен ещё и качеством того, чем мы меряем результат.
В официальных профессиональных стандартах по тестированию это и отражено: валидность - это не «свойство теста вообще», а обоснованность интерпретации результатов для конкретного применения, и для каждого использования нужны свои доказательства.
Именно поэтому с научной точки зрения вопрос «какой инструмент самый точный?» всегда нужно переводить на другой язык: для какой роли, для какого критерия, в какой популяции, на каком этапе, с какой целью - отбор, продвижение, развитие, преемственность, оценка риска, оценка потенциала?
Один и тот же метод может вести себя очень по-разному в зависимости от того, оцениваем ли мы линейного сотрудника, будущего руководителя, человека на старте карьеры или действующего топа.
Это одна из причин, по которой в современной литературе так много внимания уделяется не только валидности отдельных процедур, но и дизайну системы отбора в целом.
Что показывает мировая исследовательская база
Если брать не популярные HR-мифы, а крупные мета-анализы, картина выглядит одновременно трезво и интересно.
Старые обзоры, прежде всего работы Schmidt и Hunter, долгое время закрепили в профессиональном поле идею, что general mental ability / cognitive ability tests - лучший одиночный предиктор работы.
В классической работе 1998 года для GMA называлась операциональная валидность .51.
Но более новые пересмотры показали, что ряд старых оценок, вероятно, был завышен из-за способов коррекции range restriction. В большой ревизии Sackett, Zhang, Berry и Lievens было показано, что валидности многих методов оказались завышенными на .10-.20, а в их обновлённой матрице структурированное интервью оказалось самым сильным одиночным предиктором среди широко используемых методов - .42, тогда как для GMA в той же матрице оценка составила .31, для biodata - .38, для integrity tests - .31, для situational judgment tests - .26, а для conscientiousness tests - .19.
Ещё жёстче звучит свежий мета-анализ Sackett и коллег по уже XXI веку: для GCA и общей job performance они получили скорректированную валидность .22, а не «легендарные» .51.
Из этого следует очень важный управленческий вывод.
Во-первых, одного абсолютного лидера безоговорочно больше нет.
Во-вторых, старые разговоры в духе «просто дайте хороший IQ-тест, и всё станет понятно» сегодня звучат слишком грубо и слишком самоуверенно.
Когнитивные тесты остаются серьёзным инструментом, но уже не выглядят той безусловной вершиной, которой их часто представляли в популярной бизнес-литературе.
Когнитивные тесты: сильный инструмент, но уже не «царь горы»
Начну именно с них, потому что вокруг них накопилось больше всего мифов.
Исторически у cognitive ability tests действительно была очень сильная репутация. И она не взялась из воздуха: эти тесты устойчиво связаны с обучаемостью, скоростью освоения новой информации, решением сложных задач и, во многих работах, с общей job performance.
Даже в новом мета-анализе, где оценка снижена до .22 для XXI века, авторы прямо пишут, что связь с производительностью есть, просто её величина ниже, чем считалось раньше. В обновлённой интегративной матрице Sackett и коллег показатель для GMA равен .31, то есть это всё ещё сильный, но уже не доминирующий одиночный предиктор.
Проблема когнитивных тестов в том, что организации часто ждут от них слишком многого. Они неплохо отвечают на вопрос, с какой скоростью человек учится и насколько хорошо справляется с задачами, требующими анализа и умственной обработки информации, но гораздо хуже описывают такие вещи, как стиль влияния, зрелость суждений, устойчивость поведения под давлением, способность строить отношения, управлять конфликтом, переносить организационную неопределённость или быть конструктивным руководителем.
Если роль богата именно этими компонентами, полагаться только на когнитивный тест — значит брать лишь один срез человека и делать вид, что этого достаточно.
Структурированное интервью: возможно, лучший одиночный инструмент из реально применимых
Если меня спросить, какой один метод сегодня выглядит самым признанным и практически самым разумным для большинства компаний, я бы ответила так: хорошо спроектированное структурированное интервью - самый безопасный кандидат на роль “лучшего одиночного инструмента”, если говорить не о мифах, а о современной доказательной базе.
В обновлённой матрице Sackett и коллег именно structured interview вышло на первое место с валидностью .42.
А ещё более старый, но до сих пор важный мета-анализ McDaniel и коллег показал, что интервью вообще «работает» заметно лучше, чем долго думали скептики, причём structured interviews системно превосходят unstructured interviews.
В обзорах этого корпуса исследований обычно фигурируют цифры порядка .44 для структурированных интервью против, примерно, .33 для неструктурированных, если брать job performance как критерий.
Почему это так важно?
Потому что структурированное интервью - это не просто «поговорили по заранее подготовленным вопросам», это метод, где есть job analysis, понятные критерии, одинаковая логика вопросов для всех кандидатов, поведенческие anchors или rating guides, единый процесс выставления оценок и дисциплина интервьюера.
Именно структура снижает шум, уменьшает влияние симпатии, харизмы, первого впечатления и даёт более сопоставимые данные.
Иными словами, профессионалы часто недооценивают не интервью как таковое, а цену того, насколько именно оно структурировано.
Work sample tests и job knowledge tests: очень сильны, когда роль позволяет
Если человек уже умеет выполнять работу, то самый прямой способ оценки - посмотреть, как он выполняет работу или её реалистичный фрагмент.
Логика work sample tests настолько естественна, что бизнес их часто интуитивно любит, и не без оснований.
В более новых обзорах Schmidt и Oh указывают для work samples валидность .33, при том, что более старые оценки были существенно выше и доходили до .54; обновление Roth, Bobko и McFarland снизило старую цифру именно после накопления более широких данных.
Для tailored job knowledge tests в обзоре Schmidt и Oh приводится валидность .48.
Это очень хороший результат, но он относится, прежде всего, к ситуациям, где есть смысл проверять уже существующее профессиональное знание, а не общий потенциал.
И вот здесь как раз проявляется главный принцип качественной оценки: сила инструмента зависит от того, совпадает ли он с природой задачи. Если вы берёте сварщика, бухгалтера, аналитика с чётким набором операционных действий или руководителя, которому нужно решить реальный business case, work sample может дать невероятно ценный сигнал.
Но если вы пытаетесь через work sample угадать долгосрочный leadership potential, культурную зрелость или способность человека развиваться через два года в другой роли, этот метод уже перестаёт быть всемогущим.
Он силён там, где нужно мерить «умеет ли делать», и гораздо слабее там, где нужно прогнозировать «как будет расти, влиять и вести себя в сложной живой системе».
Situational Judgment Tests: полезный «средний класс» оценки
SJT - один из самых практичных инструментов для оценки judgment, социального понимания, приоритетов и прикладной логики поведения в типичных рабочих ситуациях.
В обновлённой матрице Sackett и коллег для SJT приведена валидность .26, то есть это не лидер таблицы, но вполне рабочий инструмент. При этом в обзорах по ситуационным тестам (situational judgment tests, SJT) отдельно подчёркивается, что их сила не только в прогностической валидности (criterion validity), но и в том, что они часто дают дополнительную ценность (incremental validity) поверх когнитивных тестов (cognitive ability tests) и личностных опросников (personality measures).
Кроме того, у них обычно ниже риск системных искажений при отборе (adverse impact), особенно в тех случаях, когда задания меньше нагружены когнитивной сложностью (cognitive loading).
Есть ещё один важный нюанс: большое значение имеет формат ответа (response instructions).
Например:
- тесты, ориентированные на знание «правильного» поведения (knowledge-based SJT), сильнее связаны с уровнем мышления и интеллекта (cognitive ability);
- а тесты, где человек выбирает, как он сам бы действовал (behavioral tendency SJT), больше связаны с личностными характеристиками, такими как добросовестность (conscientiousness), доброжелательность (agreeableness) и эмоциональная устойчивость (emotional stability).
Практически это означает следующее: SJT редко бывает «лучшим одиночным методом», но очень часто оказывается очень удачным вторым или третьим элементом батареи, особенно когда организация хочет оценивать не только интеллект, но и judgment, реакцию на неоднозначные ситуации и социально-поведенческие предпочтения.
Personality tests: полезны, но только если перестать ждать от них магии
Здесь, пожалуй, больше всего разочарований. Потому что личностные опросники очень удобно продавать как «рентген человека», а исследования уже много лет говорят более скромным голосом.
Классические мета-анализы Баррика и Маунта (Barrick & Mount), а затем Хёрца и Донована (Hurtz & Donovan) показывали, что из модели «Большой пятёрки» (Big Five) наиболее устойчивым предиктором эффективности работы (job performance) является добросовестность (conscientiousness), с типичными значениями валидности на уровне 0,22-0,25 в более ранних исследованиях.
Более поздние обобщающие мета-анализы более высокого уровня (second-order meta-analysis) также подтверждают, что связь добросовестности с результативностью остаётся на уровне примерно 0,20.
Однако есть важный нюанс, который часто упускают. Свежая работа Ватрина, Вайрауха и Вильгельма (Watrin, Weihrauch & Wilhelm) обращает внимание на то, что значительная часть этих результатов получена в исследованиях, где анализировались уже работающие сотрудники (concurrent studies с incumbents).
Иными словами, измерения проводились «здесь и сейчас», а не в логике прогноза.
А вот при попытке перенести эти выводы на ситуацию отбора кандидатов (applicant-based predictive settings) связь оказывается менее однозначной, чем принято считать.
Это хорошо видно и в обновлённой интегративной матрице Сакетта и коллег (Sackett et al.), где валидность тестов на добросовестность составляет около 0,19.
Это не значит, что personality tests бесполезны.
Это значит, что они особенно ценны не как одиночное основание для “да/нет”, а как слой данных о стиле, склонностях, рисках, вероятных паттернах поведения и дополнении к другим методам.
Там, где рекрутер или HRD хочет одной кнопкой «измерить личность и понять всё», начинается не наука, а красивая фантазия.
Тесты на добросовестность и надёжность (integrity tests): недооценённый инструмент, особенно если важны риски деструктивного поведения
Если говорить честно, тесты на добросовестность и надёжность (integrity tests) заслуживают гораздо большего внимания, чем обычно получают в бизнес-практике.
В классическом мета-анализе Онса, Висвесварана и Шмидта (Ones, Viswesvaran & Schmidt) для этих тестов была получена средняя прогностическая валидность около 0,41 для общей эффективности работы (job performance) и около 0,47 для контрпродуктивного поведения (counterproductive work behavior, CWB) - например, краж, нарушений дисциплины, прогулов и других форм деструктивного поведения.
В более новых обобщающих оценках (например, в обновлённой матрице Сакетта и коллег, Sackett et al.) приводится более консервативное значение около 0,31, что всё равно делает этот инструмент одним из наиболее сильных среди одиночных предикторов.
Но, пожалуй, самое интересное проявляется не столько в отдельных значениях, сколько в комбинациях методов.
Например:
- сочетание структурированного интервью (structured interview, SI) и тестов на добросовестность даёт валидность около 0,53;
- а комбинация биографических данных (biodata), структурированного интервью и тестов на добросовестность - уже около 0,57.
И это очень наглядно показывает, как работает принцип современной оценки: максимальная точность появляется не за счёт одного «сильного» инструмента, а за счёт грамотного сочетания разных методов.
Это очень важная мысль для компаний, которые нанимают на роли с высокой ценой ошибок, доступом к ресурсам, клиентским риском, compliance-риском или высокой вероятностью скрытого деструктивного поведения.
Если организация вообще не смотрит в сторону integrity-related constructs, она может упускать именно тот слой риска, который потом взрывается уже после оффера.
Biodata: неожиданно сильный, но недооценённый метод
Biodata - это не просто «анкета о прошлом».
В профессиональном смысле это структурированная биографическая информация, которая кодируется так, чтобы прошлый опыт, устойчивые паттерны выбора, достижения, траектория и типовые поведенческие факты работали как предикторы будущей результативности.
В обновлённой матрице Sackett и коллег biodata неожиданно выглядит очень сильно - .38 как одиночный предиктор, то есть выше GMA и integrity в этой конкретной матрице и уступая только structured interview.
В комбинациях biodata тоже показывает себя хорошо:
- сочетание биографических данных (biodata, BD) и структурированного интервью (structured interview, SI) даёт валидность около 0,52;
- комбинация биографических данных и тестов на добросовестность (integrity tests, I) - около 0,44;
- а объединение всех трёх методов - биографических данных, структурированного интервью и тестов на добросовестность - уже около 0,57.
Почему этот метод всё ещё не везде популярен?
Потому что он требует умной конструкции и дисциплины.
Плохо собранная биография - это просто длинная анкета.
Хорошо сконструированная biodata - это один из способов превратить прошлое человека в прогнозный сигнал.
Но это работает только тогда, когда организация понимает, какие именно прошлые факты действительно релевантны будущей работе.
Assessment Center: сильный метод, но не всемогущий
Assessment Center очень любят за эффект «объёмного портрета».
И не зря.
Но именно вокруг него бывает больше всего романтизации. В хороших руках это действительно один из самых содержательных методов, особенно для руководителей и сложных ролей.
Однако с точки зрения criterion-related validity он не является магическим чемпионом.
В мета-анализе Hermelin, Lievens и Robertson corrected correlation между overall assessment rating и supervisory performance ratings составила .28 с 95% доверительным интервалом .24-.32.
Более старый мета-анализ Gaugler и коллег давал более высокую оценку порядка .37. Разница сама по себе полезна как напоминание: даже у сильных методов оценки итоговые числа зависят от качества исследований, конструкции метода и способов коррекции.
У Assessment Center есть ещё одна важная особенность.
Он очень силён не только как предиктор, но и как богатый поведенческий материал для решений о развитии, преемственности и потенциале.
Но именно поэтому компании часто делают логическую ошибку: считают, что раз AC «сложный и дорогой», значит он автоматически «точнее всех».
Наука такого вывода не подтверждает. Хороший AC ценен, но он не отменяет необходимость сочетать его с другими данными, и не освобождает от вопросов про критерии, валидность и качество наблюдателей.
Неструктурированное интервью (unstructured interview), рекомендации (reference checks) и графология: зона наибольшего самообмана
Здесь, пожалуй, сосредоточено больше всего иллюзий в оценке людей.
С неструктурированным интервью (unstructured interview) ситуация достаточно ясна: оно системно уступает структурированному интервью (structured interview) по прогностической ценности.
Проблема не в самом формате разговора, а в отсутствии структуры - единых вопросов, критериев и правил оценки.
В результате решение начинает зависеть не столько от кандидата, сколько от восприятия интервьюера: первого впечатления, симпатии, стиля общения.
Именно поэтому вера в «я просто хорошо чувствую людей» чаще всего оказывается не профессиональной силой, а обычной переоценкой собственной интуиции.
С рекомендациями (reference checks) картина более тонкая.
Формально это источник дополнительной информации, но в реальной практике он часто оказывается довольно слабым.
Причина - в человеческом факторе и в контексте: бывшие работодатели осторожны в формулировках, избегают прямых оценок, а иногда просто дают максимально нейтральную обратную связь. В итоге рекомендации полезны как проверка фактов и сигналов риска, но крайне редко дают глубокое понимание человека.
А вот графология (graphology) - это уже совсем другая история.
С научной точки зрения её валидность в оценке профессиональной эффективности не подтверждена.
Исследования показывают, что специалисты по графологии не дают более точных прогнозов, чем люди без специальной подготовки, если речь идёт о предсказании рабочей результативности.
Проще говоря, если компания пытается оценивать кандидатов по почерку, она опирается не на доказательные методы, а на устойчивый, но не подтверждённый миф.
Есть ли самый признанный «точный» инструмент?
Если отвечать максимально честно, то самого точного инструмента «вообще» не существует.
Но есть методы, которые работают сильнее других.
Если опираться на современные крупные обзоры и пересмотры валидностей, то среди широко применяемых одиночных инструментов на первое место выходит структурированное интервью (structured interview) с валидностью около 0,42.
Если говорить о наиболее изученном предикторе в истории исследований, то это, безусловно, общий уровень когнитивных способностей (general cognitive ability).
Однако более свежие данные показывают, что его прогностическая сила ниже, чем считалось раньше, и требует более осторожной интерпретации.
Если специфика роли позволяет использовать практические задания, то тесты на знание работы (job knowledge tests) и рабочие задания (work samples) могут давать очень сильный сигнал, особенно при оценке опытных специалистов.
Если для роли критичны риски деструктивного поведения и надёжности, важно учитывать тесты на добросовестность (integrity tests), которые в этой зоне показывают высокую практическую ценность.
Если же задача - получить более объёмное понимание поведения управленца, разумным элементом системы может быть центр оценки (Assessment Center), особенно при работе с руководящими позициями.
Но при всём этом есть принципиально важное ограничение: ни один из этих инструментов, используемый отдельно, не даёт оснований говорить о полной точности оценки человека.
Самый важный вывод: точность живёт не в одном инструменте, а в комбинации
И вот мы приходим к выводу, который для бизнеса одновременно неудобен и освобождающ: волшебной таблетки нет, но есть хорошие системы.
Это, пожалуй, главная идея современной evidence-based оценки.
Не нужно искать один чудо-тест.
Нужно проектировать батарею методов так, чтобы они давали разные, не полностью перекрывающиеся сигналы.
Именно поэтому комбинации нередко оказываются сильнее одиночных инструментов. В обновлённой матрице Sackett и коллег structured interview + integrity дают .53, biodata + structured interview - .52, GMA + structured interview - .48, а biodata + structured interview + integrity - .57.
То есть сила появляется не потому, что мы «накидали побольше всего», а потому, что мы сочетали инструменты с разной природой сигнала.
Хорошая система оценки обычно отвечает сразу на несколько разных вопросов. Например:
- способен ли человек быстро учиться и разбираться в сложном?
- Как он рассуждает о рабочих ситуациях?
- Что он реально делал раньше? Как он ведёт себя в живой симуляции?
- Насколько у него выражены надёжность и саморегуляция? - Каким рискам подвержено его поведение?
- Насколько его стиль управления совпадает с задачами роли?
Ни один метод не закрывает всё это сразу.
А вот несколько хорошо подобранных инструментов уже могут.
И ещё один честный момент: даже лучшая батарея не отменяет профессионального суждения
Это важно проговорить отдельно.
Профессиональная оценка - это не соревнование «механика против человека». Хорошие инструменты нужны не для того, чтобы убрать экспертное суждение, а для того, чтобы сделать его менее слепым и менее самоуверенным.
Самая опасная комбинация в оценке - это не отсутствие тестов. Самая опасная комбинация - это слабые методы плюс сильная уверенность оценщика в собственной безошибочности.
Наука как раз и нужна для того, чтобы эту уверенность дисциплинировать.
Если совсем кратко подвести итог, он будет таким.
Нет, получить на 100% точные данные о человеке с помощью одного инструмента нельзя.
Да и с помощью набора инструментов нельзя в буквальном смысле «узнать всё».
Но можно существенно снизить вероятность ошибки, если перестать искать магию и начать собирать оценку как систему: под роль, под критерии, под риски, под контекст и на основе тех методов, для которых действительно есть серьёзная исследовательская база.
И если всё-таки нужно назвать один самый признанный сегодня одиночный метод, то я бы поставила на структурированное интервью. А если нужно назвать лучший принцип оценки вообще, то он звучит иначе: не один инструмент, а умная комбинация нескольких валидных инструментов.