Читаем Невидимые женщины. Почему мы живем в мире, удобном только для мужчин. Неравноправие, основанное на данных полностью

Невидимые женщины. Почему мы живем в мире, удобном только для мужчин. Неравноправие, основанное на данных

Разумеется, виной всему вовсе не особенности женской речи. Виноват наш старый друг, дефицит гендерных данных. Голосовые технологии создаются на основе баз данных аудиофайлов с записями речи, так называемых речевых корпусов. И в этих базах данных преобладают записи мужской речи, во всяком случае, насколько мы можем судить, ведь в большинстве речевых корпусов записи не разбиты по половому признаку, что само по себе уже является пробелом в данных[700]. Когда Рейчел Татман сравнила доли записей мужской и женской речи в речевых корпусах, оказалось, что только в TIMIT («главном и наиболее известном речевом корпусе Консорциума лингвистических данных») данные разбиты по половому признаку. При этом на долю записей мужской речи приходилось 69 % общего количества записей. Но, вопреки выводам Рейчел Татман, найти записи женских голосов можно: как указано на сайте Британского национального корпуса[701], эта база данных является гендерно сбалансированной[702].

Речевые корпуса – не единственные базы данных, используемые для разработки алгоритмов, страдающих от «мужского перекоса». Корпуса текстов (включающие самые разные тексты – от романов до газетных статей и стандартных учебников) используются при разработке программ для переводов, сканирования резюме соискателей при приеме на работу и поиска в сети. Они тоже страдают от нехватки гендерных данных. Прошерстив Британский национальный корпус[703] (100 млн слов из различных текстов конца XX в.), я обнаружила, что местоимения мужского рода всегда выскакивают в результатах поиска почти вдвое чаще местоимений женского рода[704]. При этом соотношение местоимений мужского и женского рода в Корпусе современного американского английского языка, содержащем 520 млн слов, также составляет 2:1, хотя он включает более современные тексты (вплоть до 2015 г.)[705]. Алгоритмы, разрабатываемые на основе таких корпусов, страдающих от нехватки гендерных данных, создают впечатление, что в мире действительно преобладают мужчины.

Базы данных изображений тоже, судя по всему, страдают от нехватки гендерных данных. Проведенный в 2017 г. анализ двух наиболее часто используемых баз данных, содержащих «более 100 000 сложных изображений из интернета, снабженных описаниями», показывает, что количество изображений мужчин значительно превосходит количество изображений женщин[706]. Результаты исследований Вашингтонского университета также говорят о том, что женщины недостаточно представлены в Google Images. Этот недостаток касался представительниц 45 профессий, причем наиболее заметное расхождение с реальностью наблюдалось по генеральным директорам компаний. В то время как доля женщин в общей численности генеральных директоров компаний в США достигала 27 %, по результатам поиска в Google Images этот показатель составлял лишь 11 %[707]. Результаты поиска по запросу «author» («автор») также оказались далекими от реальности: всего 25 % женщин, хотя на самом деле доля писательниц в общем количестве литераторов в США равнялась 56 %. Исследование также показало, что мнимые диспропорции искажают представления о реальном соотношении количества мужчин и женщин в различных профессиях – по крайней мере, в краткосрочной перспективе. С внедрением алгоритмов искажение реальной картины, естественно, примет долгосрочный характер.

Мало того, что женщины представлены в базах данных недостаточно, – они представлены еще и неверно. Авторы статьи, опубликованной в 2017 г., проанализировали стандартные текстовые корпуса, и выяснилось, что женские имена и указывающие на принадлежность к женскому полу слова, такие как woman, girl («женщина», «девушка») и т. д.), чаще употреблялись в связи с семьей, чем с карьерой. С мужскими именами и словами, указывающими на принадлежность к мужскому полу, ситуация была прямо противоположной[708]. Проведенный в 2016 г. анализ популярной общедоступной базы данных, созданной на основе Google News, показал, что первое место в списке женских профессий занимала «профессия» домохозяйки (homemaker), в то время как в отношении мужчин доминировало обозначение maestro («маэстро», «мэтр»)[709]. В десятку наиболее распространенных профессий, так или иначе связанных с половой принадлежностью, входили философы, социологи, капитаны, администраторы, архитекторы и няни – догадайтесь сами, какие из них ассоциировались с мужчинами, а какие – с женщинами. Вышеупомянутый анализ баз данных изображений 2017 г. также показал, что изображенные объекты и их действия указывали на «весьма серьезный “мужской перекос”»[710]. Один из исследователей, Марк Яцкер, описал будущее, в котором робот, обученный с помощью таких баз данных и потому точно не знающий, что делают на кухне мужчины и женщины, «предлагает мужчине пиво, а женщине – помощь в мытье посуды»[711].

Читаем Невидимые женщины. Почему мы живем в мире, удобном только для мужчин. Неравноправие, основанное на данных полностью

Невидимые женщины. Почему мы живем в мире, удобном только для мужчин. Неравноправие, основанное на данных

Похожие книги

Все жанры