Читаем The Worlds I See полностью

Проблема была тонкой, но она демонстрировала явление, которое я остро осознал за годы работы профессором. Как это часто бывает со студентами, Андрей был настолько сосредоточен на том, работает ли его модель, что вопрос о том, как она работает, отошел на второй план. Признаться, она действительно работала, по крайней мере, на первый взгляд. Но наши регулярные встречи позволили мне подробно изучить ход его мыслей, и хотя его подход был грамотным и хорошо обоснованным, в итоге модель оказалась чем-то вроде системы подбора надписей.

Проще говоря, слишком много описания, выводимого на экран, в той или иной форме поступало из обучающих данных, как будто алгоритм искал его в какой-то сложной базе данных. По сути, это избавляло модель от конечной цели, как я ее видел: создания надписи полностью с нуля. С практической точки зрения я был уверен, что модель не будет обобщенной - даже если она покажет хорошие результаты при тестировании, она будет сбита с толку изображениями, не входящими в ее обучающий набор, что приведет к неправильным, некачественным или обоюдным подписям. Но на самом деле проблема была научной. Модель получала свои результаты. Но она все еще не была настоящим автором.

Андрей вздохнул, прекрасно понимая, насколько я усложняю ему жизнь . Но как бы он ни был раздражен, я знал, что он способен понять, что пропасть стоит преодолеть.

"Ладно, давайте я еще раз все обдумаю", - сказал он. "Я понимаю, что надпись должна быть написана слово в слово. Это вызывает много вопросов о том, как мы будем следовать визуальным особенностям изображения и одновременно создавать что-то грамматически правильное, но... я что-нибудь придумаю".

Я улыбнулась. Он почти не скрывал своего разочарования, но было ясно, что он все правильно понял. Ученый во мне отказывался принимать что-то меньшее, и он это знал. Как он на самом деле все это сделает, пока никто не мог предположить, но я знал, что инженер в нем так же неумолим, как и я. Он добьется своего.

Язык и зрение - очень разные вещи. Основной единицей изображения является "пиксель" - ставший уже привычным термин, который возник как сокращение от "элемента изображения" - почти незаметная точка, фиксирующая цвет в одной крошечной точке сцены. Для того чтобы изобразить что-то значимое, могут потребоваться сотни, а то и тысячи пикселей. Телефоны, лежащие в наших карманах, снимают детализированные изображения, состоящие из десятков миллионов таких точек. Но сами по себе пиксели практически ничего не говорят нам об изображении, если оценивать их по отдельности. Задача алгоритма зрения, будь то серое вещество в нашем черепе или кремний в наших машинах, - сгруппировать эти пиксели во все более крупные области двухмерного изображения, а затем каким-то образом просканировать их в поисках паттернов, соответствующих трехмерным характеристикам реального мира: пространства, объемов, поверхностей, текстур и тому подобного.

В отличие от этого, основной единицей такого языка, как английский, по крайней мере, того, на котором говорят и пишут в повседневной жизни, является слово. В отличие от пикселя, слова обычно передают определенный смысл даже по отдельности. А полный набор слов хоть и очень велик, но конечен. Тем не менее, когда слова располагаются рядом друг с другом, их значение изменяется, а то и полностью трансформируется - посмотрите, например, на разницу между такими парами слов, как "рок дно", "фрагменты рока" и "рок музыка", . Это явление усугубляется по мере того, как все больше слов соединяются вместе, образуя более длинные предложения, не говоря уже об абзацах, страницах и томах. В общем, комбинаторный потенциал слов для передачи идей практически безграничен.

В то время как первые заголовки новостей этой новой, рассветной эры пестрели прорывами в области компьютерного зрения, это было не менее продуктивное время для обработки естественного языка. Жемчужиной этого периода стала рекуррентная нейронная сеть, или РНС. Семейство алгоритмов, созданных специально для работы с линейными последовательностями слов, позволяло RNN быстро определять основные свойства текста, подобно тому, как сверточные нейронные сети типа AlexNet обрабатывают изображения. Как и CNN, RNN существовали уже несколько десятилетий, но их истинная сила была осознана только сейчас.

Однако, возможно, более манящим, чем прогресс в какой-либо одной области, было перекрестное опыление, которое стало происходить между многочисленными подобластями ИИ. Растущее семейство нейронных сетей дало зрению, языку, речи и другим формам восприятия общую алгоритмическую основу, вдохновив лаборатории, подобные нашей, на стирание границ, разделявших их, в стремлении достичь более интегрированных, похожих на человеческие, возможностей.

Перейти на страницу:

Похожие книги

Искусство статистики. Как находить ответы в данных
Искусство статистики. Как находить ответы в данных

Статистика играла ключевую роль в научном познании мира на протяжении веков, а в эпоху больших данных базовое понимание этой дисциплины и статистическая грамотность становятся критически важными. Дэвид Шпигельхалтер приглашает вас в не обремененное техническими деталями увлекательное знакомство с теорией и практикой статистики.Эта книга предназначена как для студентов, которые хотят ознакомиться со статистикой, не углубляясь в технические детали, так и для широкого круга читателей, интересующихся статистикой, с которой они сталкиваются на работе и в повседневной жизни. Но даже опытные аналитики найдут в книге интересные примеры и новые знания для своей практики.На русском языке публикуется впервые.

Дэвид Шпигельхалтер

Зарубежная образовательная литература, зарубежная прикладная, научно-популярная литература
Эволюция и прогресс
Эволюция и прогресс

Автор вводит читателя в круг наиболее интригующих вопросов эволюционной биологии. До сих пор эволюционный прогресс остается предметом бурных, даже ожесточенных споров. По существу, всех биологов можно разделить на сторонников и противников идеи этой формы прогресса. Эволюцию живых организмов обычно связывают с ростом их сложности и степени совершенства, однако до сих пор нет строгих критериев этой оценки. Главная мысль, развиваемая автором, состоит в том, что основные атрибуты прогресса — усложнение строения и повышение уровня надклеточной организации — являются лишь следствием постоянно идущего отбора на повышение эволюционной пластичности видов.Книга предназначена для биологов широкого профиля, а также всех интересующихся вопросами эволюции живых существ.

Владимир Александрович Бердников

Зарубежная образовательная литература, зарубежная прикладная, научно-популярная литература / Биология / Научпоп / Образование и наука / Документальное