Растущая обеспокоенность потенциально неправильным использованием персональных данных (особенно при их сборе с аккаунтов в социальных сетях) сосредоточивает внимание на этических аспектах науки о данных и статистики. Хотя государственные статистики связаны официальным кодексом поведения, в целом этика при работе с данными находится на стадии разработки.
В этой книге говорилось о том, что алгоритмы, влияющие на жизнь людей, должны быть честными и прозрачными, о важности честности и воспроизводимости в науке, о требованиях к надежной коммуникации. Все это составляющие этики работы с данными, а нашумевшие истории показали, как пагубно влияет конфликт интересов и даже просто чрезмерный энтузиазм, искажая полученные данные. Можно было бы выделить многие другие важные темы: конфиденциальность и право собственности на данные, информированное согласие на их более широкое использование, юридические аспекты объяснения алгоритмов и тому подобные.
Хотя статистика может показаться сугубо технической наукой, ее всегда нужно рассматривать в контексте общества, и ее представители несут за это ответственность. В ближайшем будущем можно ожидать, что этика работы с данными станет неотъемлемой частью преподавания статистики.
Перед всеобщими выборами 8 июня 2017 года в Великобритании большинство опросов общественного мнения предполагало, что консерваторы получат значительный перевес. Через несколько минут после окончания голосования, в 22:00, группа статистиков предсказала, что консерваторы потеряли много мест, а с ними и абсолютное большинство, поэтому парламент будет подвешенным. Это заявление было встречено с недоверием. Как они смогли сделать столь смелый прогноз и оказались ли правы?
Завершить книгу, которая была написана не для того, чтобы разоблачить недобросовестных исследователей, а для того, чтобы показать, какую пользу способно принести владение искусством и наукой работы с данными, вполне уместно ярким примером применения статистики.
Вопрос, кто выиграл выборы, сразу же после того, как они закончились, может показаться странным: в конце концов, можно посидеть ночь и подождать итогов. Но это уже стало традицией: буквально через несколько минут после окончания опросов эксперты делают прогнозы относительно результатов. Обратите внимание, что результаты уже фиксированы, просто неизвестны, так что мы имеем дело с классическим примером эпистемической неопределенности, возникающей при рассмотрении уровня безработицы и прочих величин, которые «существуют», но неизвестны.
Рассмотрим цикл PPDAC.
Анализ использовал ряд методов, о которых мы говорили в главе 3
.•
•