После успешного сбора данных Михал Косински и его коллеги сосредоточились на изучении лайков, которые испытуемые ставят в фейсбуке, чтобы сделать прогнозы относительно их анкет. Ученые хотели определить, насколько хорошо отметки «Нравится» позволяют судить о социально-демографических переменных, таких как возраст и пол, и о психологических, вроде характера или уровня интеллекта. Почему именно лайки? Они содержат релевантную информацию о пользователях, поскольку люди обычно лайкают только то, что им действительно нравится. Таким образом пользователи фейсбука добровольно показывают операторам платформы, что им по душе, а что нет. Meta извлекла из этой информации немало прибыли. По схожему алгоритму работал Косински: на основании оставленных пользователями лайков его команда отбирала общие паттерны поведения, которые позволяли ученым строить гипотезы о характеристиках участников и относить их к той или иной категории. Приведу пример (не из исследования), который наглядно показывает, как может выглядеть отбор. Представим, что из комментария под постом в фейсбуке я узнал, что Нил Янг скоро выступит с концертами в Европе, а в другом комментарии прочел, что у Тейлор Свифт выходит новый альбом. Я бы лайкнул оба сообщения. На основании этого меня можно отнести в категорию «Любитель музыки». Такая категоризация, конечно, приводит к упрощению данных, но одновременно помогает лучше их отсортировать и проанализировать. Статистический анализ в работе Косински ожидаемо показал, что большее количество доступных для анализа лайков привело к повышению точности прогнозов по целевым переменным. Чем больше цифровых следов было доступно, тем легче авторам исследования было предсказать многочисленные психологические переменные. Но насколько точна эта информация?
Для начала отметим, что при проведении статистического анализа на одного пользователя в среднем приходилось около 170 лайков. Этого было достаточно для выявления дихотомических переменных – переменных из двух категорий, например пол (мужчина/женщина)[300]
. В США политическая ориентация также была бы дихотомической переменной, так как, в отличие от Германии, там двухпартийная система (демократы против республиканцев). Еще один пример – употребление алкоголя (да/нет). Но вернемся к лайкам в фейсбуке и их предсказательной силе. Мужчину можно отличить от женщины на основе лайков с точностью 93 %. Также алгоритм смог правильно (85 %) классифицировать либералов и консерваторов. Точность определения сексуальной ориентации человека (гетеросексуал или гомосексуал) составила 88 % среди мужчин и 75 % среди женщин.Как и в исследовании Гокула Читтаранджана, команда Косински попыталась описать структуру личности на основе данных смартфона. В лучшем случае предсказательная сила информации о лайках участников исследования составила 0,40 для показателя «экстраверсия» и 0,43 для личностной черты «открытость опыту». Здесь точность прогнозирования значительно снижается, так как речь идет не о дихотомических переменных, а о метрических конструктах. К метрическим конструктам относятся не только рост и вес человека, но и характер, который оценивается совокупностью целого ряда критериев.
Несмотря на более низкую предсказательную силу, все же удалось обнаружить умеренные корреляции между лайками и чертами личности. Чтобы вы могли лучше представить себе эти результаты, приведу конкретные примеры из работы Ву Ю Ю и ее коллег. Они пошли еще дальше и доказали, что информация о лайках позволяет описать характер участников исследования точнее, чем опросы друзей и партнеров[301]
. Необходимо лишь достаточное количество лайков для анализа – и алгоритм справится на «отлично»!В исследовании Ву Ю Ю и ее коллег экстраверты выделялись тем, что ставили больше лайков постам о вечеринках, танцах или, например, Снуки, звезде реалити-шоу в США. Люди с высокими показателями открытости ко всему новому с большей вероятностью ставили лайк публикациям о Сальвадоре Дали, о техниках медитации и о TED Talks, научных лекциях на ютубе, где эксперты излагают информацию по самым разнообразным темам примерно в течение 18 минут.
Думаю, интуитивно понятно, почему лайки обладают некоторой предсказательной силой при определении личностных качеств. Однако здесь снова необходимо отметить, что наблюдается лишь умеренная корреляция между тем, что человек лайкает, и чертами его личности, поэтому прогнозирование возможно только на групповом уровне. Как и в случае с исследованием Читтаранджана, о котором мы только что говорили, можно только предполагать, что лайки под постами на определенные темы указывают на