Разумеется, виной всему вовсе не особенности женской речи. Виноват наш старый друг, дефицит гендерных данных. Голосовые технологии создаются на основе баз данных аудиофайлов с записями речи, так называемых речевых корпусов. И в этих базах данных преобладают записи мужской речи, во всяком случае, насколько мы можем судить, ведь в большинстве речевых корпусов записи не разбиты по половому признаку, что само по себе уже является пробелом в данных[700]
. Когда Рейчел Татман сравнила доли записей мужской и женской речи в речевых корпусах, оказалось, что только в TIMIT («главном и наиболее известном речевом корпусе Консорциума лингвистических данных») данные разбиты по половому признаку. При этом на долю записей мужской речи приходилось 69 % общего количества записей. Но, вопреки выводам Рейчел Татман, найти записи женских голосов можно: как указано на сайте Британского национального корпуса[701], эта база данных является гендерно сбалансированной[702].Речевые корпуса – не единственные базы данных, используемые для разработки алгоритмов, страдающих от «мужского перекоса». Корпуса текстов (включающие самые разные тексты – от романов до газетных статей и стандартных учебников) используются при разработке программ для переводов, сканирования резюме соискателей при приеме на работу и поиска в сети. Они тоже страдают от нехватки гендерных данных. Прошерстив Британский национальный корпус[703]
(100 млн слов из различных текстов конца XX в.), я обнаружила, что местоимения мужского рода всегда выскакивают в результатах поиска почти вдвое чаще местоимений женского рода[704]. При этом соотношение местоимений мужского и женского рода в Корпусе современного американского английского языка, содержащем 520 млн слов, также составляет 2:1, хотя он включает более современные тексты (вплоть до 2015 г.)[705]. Алгоритмы, разрабатываемые на основе таких корпусов, страдающих от нехватки гендерных данных, создают впечатление, что в мире действительно преобладают мужчины.Базы данных изображений тоже, судя по всему, страдают от нехватки гендерных данных. Проведенный в 2017 г. анализ двух наиболее часто используемых баз данных, содержащих «более 100 000 сложных изображений из интернета, снабженных описаниями», показывает, что количество изображений мужчин значительно превосходит количество изображений женщин[706]
. Результаты исследований Вашингтонского университета также говорят о том, что женщины недостаточно представлены в Google Images. Этот недостаток касался представительниц 45 профессий, причем наиболее заметное расхождение с реальностью наблюдалось по генеральным директорам компаний. В то время как доля женщин в общей численности генеральных директоров компаний в США достигала 27 %, по результатам поиска в Google Images этот показатель составлял лишь 11 %[707]. Результаты поиска по запросуМало того, что женщины представлены в базах данных недостаточно, – они представлены еще и неверно. Авторы статьи, опубликованной в 2017 г., проанализировали стандартные текстовые корпуса, и выяснилось, что женские имена и указывающие на принадлежность к женскому полу слова, такие как