Читаем Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных полностью

Конечно, в этом деле присутствует фактор уникальности. Любой набор данных может включать данные известных лиц, которые в некотором смысле являются аномальными и допускают простую идентификацию, но это не означает, что большинство людей могут быть так же легко идентифицированы. В нашем примере Уэлд был публичной фигурой, и о нем было много чего известно. Кроме того, его повторная идентификация зависела от точности информации в избирательном бюллетене. Дэниел Барт-Джонс детально изучил этот случай и показал его исключительность[161]. Тем не менее это событие вызвало определенную тревогу на правительственном уровне и недавние изменения в законодательстве затруднили такую повторную идентификацию.

Другой известный случай касается данных веб-поиска, открыто опубликованных на портале поставщиком онлайн-услуг AOL в 2006 г. Чтобы сохранить анонимность, AOL удалил IP-адреса и никнеймы пользователей, осуществлявших поисковые запросы, заменяя их все тем же случайно выбранным идентификатором. В данном случае анонимность была взломана не аспирантом, а двумя журналистами, которые быстро сопоставили идентификатор 4417749 с Тельмой Арнольд, вдовой, проживающей в Лилберне, штат Джорджия. Журналисты сделали это, сузив поиск благодаря информации, содержавшейся в ее поисковых запросах: она искала медицинские недуги людей с фамилией Арнольд, информацию о собаках и т. д.

Еще один печально известный случай – так называемый «приз от Netflix» – произошел в 2006 г. База данных Netflix содержала сравнительные рейтинги предпочтений фильмов для полумиллиона подписчиков сервиса. Компанией был объявлен конкурс с призовым фондом в размере $1 млн за разработку алгоритма, который бы на 10 % точнее существующего рекомендовал фильмы подписчикам. Вся личная информация, как и положено, была удалена, а идентификаторы заменены случайными кодами. На этот раз защиту взломали два исследователя из Техасского университета, Арвинд Нараянан и Виталий Шматиков. Вот их заявление: «Мы показываем, что злоумышленник, который знает хоть что-то об отдельном подписчике, может легко идентифицировать запись этого подписчика в наборе данных. Используя базу данных фильмов в интернете (IMDb) в качестве источника базовых знаний, мы успешно определили записи известных пользователей Netflix, выявив их очевидные политические предпочтения и другую конфиденциальную информацию»[162].

Все вышеизложенное – это случаи, произошедшие относительно давно. В результате их были приняты законы, направленные на то, чтобы сделать наборы данных более безопасными и наказывать за попытки взломать анонимность. Но печальная правда заключается в том, что данные должны быть либо абсолютно темными и, следовательно, бесполезными, либо иметь для доступа хотя бы минимальную щель, через которую всегда может просочиться свет.

Сбор данных в темноте

Как мы видим, данные, идентифицирующие людей, можно анонимизировать в случаях, когда одни наборы данных связываются с другими, но есть возможность пойти еще дальше. Можно делать данные темными по мере их сбора и использования в расчетах, чтобы их вообще никто никогда не видел, но они по-прежнему были бы доступными для анализа. Ниже приведены некоторые из способов, которыми это можно сделать.

Прежде всего это рандомизированный ответ – хорошо известная стратегия сбора конфиденциальной личной информации, такой как данные, касающиеся сексуального или нечестного поведения. Для примера предположим, что мы хотим знать, какая часть населения хотя бы раз в жизни совершала кражу. Прямой вопрос на эту тему в лучшем случае приведет к искаженным ответам, поскольку очевидно, что люди склонны лгать и отрицать. Вместо этого мы просим каждого человека подбросить монету, которую видит только он. Люди проинструктированы, что, если выпадает орел, они должны правдиво ответить «да» или «нет» на вопрос «Совершали ли вы когда-нибудь кражу?», а если выпадает решка, то они должны просто ответить «да». Теперь для любого человека положительный ответ означает, что мы не будем знать, украл ли он что-то на самом деле или это монета упала решкой вверх. Но мы узнаем нечто большее. Поскольку вероятность того, что выпадет орел, равна 1

/2, мы будем знать, что общее число ответивших «нет» – только половина тех, кто действительно ничего не крал. Так что удвоение этого числа скажет нам о том, сколько человек действительно не совершали краж. Вычитая это значение из общего числа, мы узнаем число тех, кому доводилось красть.

Дэвид Хью-Джонс из Университета Восточной Англии в Великобритании использовал вариант этой идеи, чтобы исследовать честность в 15 странах[163]. Он просил людей подбросить монетку (сам не зная результата), суля вознаграждение $5, если выпадет орел. Если бы все сказали правду, можно было бы ожидать, что около половины людей сообщат, что выпал орел. Если доля утверждающих это больше половины, то, значит, люди лгут – и именно это Хью-Джонс использовал в качестве меры честности.

Перейти на страницу:

Похожие книги

Теория праздного класса
Теория праздного класса

Автор — крупный американский экономист и социолог является представителем критического, буржуазно-реформистского направления в американской политической экономии. Взгляды Веблена противоречивы и сочетают критику многих сторон капиталистического способа производства с мелкобуржуазным прожектерством и утопизмом. В рамках капитализма Веблен противопоставлял две группы: бизнесменов, занятых в основном спекулятивными операциями, и технических специалистов, без которых невозможно функционирование «индустриальной системы». Первую группу Веблен рассматривал как реакционную и вредную для общества и считал необходимым отстранить ее от материального производства. Веблен предлагал передать руководство хозяйством и всем обществом производственно-технической интеллигенции. Автор выступал с резкой критикой капитализма, финансовой олигархии, праздного класса. В русском переводе публикуется впервые.Рассчитана на научных работников, преподавателей общественных наук, специалистов в области буржуазных экономических теорий.

Торстейн Веблен

История / Прочая старинная литература / Финансы и бизнес / Древние книги / Экономика