Машин Learning

О манипуляциях с помощью статистики и сексизме

Всем привет!

Сексизм часто становится темой вечера и причиной жарких споров в небольшом круге моих друзей. Я вовсе не отношусь к тем людям, которые утверждают, что это надуманная проблема. Но и не особо доверяю статьям с бесконечным числом статистических данных, из которых следует, что сексизм всюду. Сегодня, речь пойдёт о парадоксе Симпсона и манипуляции данными.

Давайте посмотрим статистику найма на работу женщин и мужчин в компании N. За год в эту компанию мужчинами было подано 1175 резюме  и 610 — женщинами. При этом на работу было принято 30% подавших резюме мужчин и лишь 22% женщин. Сексизм? Конечно! Но всё не так просто. И более детальная статистика утверждает обратное.

В компании N имеется три отдела: Business Intelligence (BI), Data Analytics (DA) и Data Science (DS).  Обратите внимание, что каждый из отделов при найме на работу отдаёт предпочтение женщинам:

Но тогда как же так вышло, что статистика по целой фирме утверждает, что компания отдаёт предпочтение мужчинам? А дело всё в некоректном усреднении. Обратите внимание, что значительное количество женщин (около 45%) подали резюме в отдел DS. При этом, в этот отдел нанимается всего 6% подавших резюме. Среди мужчин же, большинство резюме пришло в отдел BI с самым большим процентным соотношением  количества нанятых на работу к количеству поданных резюме. Именно такое неравномерное распределение количества подавших резюме женщин и мужчин в разные отделы приводит к несоответствию статистических данных реальности. Такое явление называется парадоксом Симпсона.

Так что всегда интересуйтесь тем, как был расчитан тот или иной статистический показатель и подписывайтесь на мой телеграм канал. Хорошего вам начала рабочей недели :).

Добавить комментарий

Ваш адрес email не будет опубликован.