Вся информация, указывающая на личность пользователей, удалена; оставлены только оценки и даты. Это сделано в соответствии с нашими правилами конфиденциальности. Даже если, например, вы знаете все свои оценки и даты их выставления, вы, вероятно, не сможете с уверенностью распознать их в данных, потому что используется лишь малая выборка (менее одной десятой всего нашего массива данных) и в эти данные вносились искажения. Но, разумеется, поскольку вы и так знаете все свои собственные оценки, в этом на самом деле не было бы нарушения конфиденциальности, не правда ли?
Два исследователя из Техасского университета в Остине взяли эти данные и, сопоставив их с пользователями, оценивающими фильмы на другом сайте, Internet Movie Database, определили личности некоторых из этих пользователей.
17 декабря 2009 года четверо пользователей подали на Netflix в суд, утверждая, что обнародованием этих данных компания нарушила закон о защите конфиденциальности видеоинформации. Одна из пользователей утверждала, что она – мать семейства и лесбиянка, держащая свою ориентацию в секрете, который раскрывают данные о ее кинематографических предпочтениях. То обстоятельство, что по кинематографическим предпочтениям можно догадаться о сексуальной ориентации или политических пристрастиях человека, стали называть фактором «Горбатой горы»[34]
. Тяжба закончилась внесудебным соглашением сторон, но привела к отмене второго тура состязания Netflix.Данные – это новая нефть, но мы расплескиваем ее по всему интернету. По мере того как мы вступаем в будущее, топливом которого будет эта нефть, вопросы о том, кому принадлежат данные и что с ними можно сделать, будут приобретать все большее общественное значение.
Может показаться, что, когда алгоритм говорит вам, что вам может понравиться, в этом есть нечто пугающее – если это означает, что вы никогда не увидите того, что, по его мнению, вам не понравится. Мне лично очень нравится, когда мне предлагают музыку, которую я, возможно, иначе не нашел бы. Я очень легко вхожу в накатанную колею и слушаю по кругу одни и те же песни. Поэтому я всегда любил радио. Но алгоритмы, перемещающие меня вперед и назад по фонотеке, прекрасно справляются с поиском жемчужин, способных мне понравиться. Сначала меня беспокоило, что такие алгоритмы могут загнать всех в определенные разделы фонотеки, оставив остальные ее разделы совсем без слушателей. Могут ли они вызвать слияние вкусов? Но, так как математика, лежащая в их основе, часто бывает нелинейной и хаотической, этого не происходит. Даже маленькое расхождение между моими предпочтениями и вашими способно развести нас в фонотеке в совершенно разных направлениях.
Я слушаю много музыки, которую рекомендует мой алгоритм, на пробежках. Это отличное место для исследования нового. Но несколько недель назад я совершил крупную ошибку. Жена попросила меня помочь в составлении музыкальной программы для празднования дня ее рождения. Она хотела танцев. Она хотела атмосферы восьмидесятых. Поэтому пару вечеров мы слушали то, что нравится ей. Я обычно выбираю другую музыку, но совместными усилиями мы составили отличную музыкальную программу, которая не дала никому из наших гостей усидеть на месте – все они танцевали. Проблемы начались, когда я вышел на первую после этого праздника пробежку. Мой алгоритм завел меня в раздел фонотеки, полный танцевальной музыки 1980-х. Я то и дело нажимал на бегу кнопку «Пропустить», но все равно никак не мог выбраться из этой ловушки. Чтобы вернуться в привычное состояние, мне потребовалось в течение нескольких недель переобучать свой алгоритм на произведениях Шостаковича и Мессиана.