По ряду причин IBM Watson Group
приходится тяжелее, чем другим технологическим компаниям, несмотря на разработку продвинутых и полезных продуктов. Некоторые крупные контракты IBM (например, с Онкологическим центром им. М. Д. Андерсона в Хьюстоне) оказались расторгнуты. В прессе появилась серия негативных статей о Watson, в которых часто приводились слова недовольных бывших сотрудников, утверждавших, что топ-менеджеры и рекламщики IBM создали у клиентов серьезно завышенные ожидания от технологии. В сфере ИИ завышенные ожидания не оправдываются очень часто, и виновата в этом не только IBM. Время покажет, какой вклад IBM внесет в распространение ИИ в здравоохранении, юриспруденции и других областях, где автоматические вопросно-ответные системы могут произвести революцию. Пока же достижения Watson ограничиваются победой в Jeopardy! – но при этом система может стать достойным кандидатом на получение награды за “самый громкий пшик” в истории ИИ.Понимание прочитанного
Выше я выразила сомнение в том, что Watson
может “читать”, то есть действительно понимать текст, который обрабатывает. Как определить, понимает ли компьютер “прочитанное”? Можно ли провести тест на “понимание прочитанного” для компьютеров?В 2016 году ученые из Стэнфордского университета, исследующие обработку естественного языка, предложили тест, который быстро превратился в метрику “понимания прочитанного” для машин. В тест SQuAD
(Stanford Question Answering Dataset – Стэнфордский набор вопросов и ответов) включены фрагменты из статей “Википедии”, каждый из которых сопровождается вопросом. Более ста тысяч вопросов были составлены работниками Amazon Mechanical Turk[297].Тест SQuAD
проще, чем типичные тесты на понимание прочитанного для людей: в инструкции по составлению вопросов стэнфордские ученые отметили, что ответ обязательно должен появляться в тексте в форме предложения или словосочетания. Вот пример из теста SQuAD:Фрагмент:
Пейтон Мэннинг стал первым в истории квотербеком, который привел две разные команды к нескольким Супербоулам. В возрасте 39 лет он также стал самым возрастным квотербеком, когда-либо принимавшим участие в Супербоуле. Ранее рекорд принадлежал Джону Элвею, который в 38 лет привел “Бронкос” к победе на XXXIII Супербоуле и сегодня занимает пост исполнительного вице-президента по футбольным операциям и генерального менеджера денверской команды.Вопрос:
Как зовут квотербека, которому было 38 лет на XXXIII Супербоуле?Верный ответ:
Джон Элвей.Чтобы правильно ответить на вопрос, не нужно ни читать между строк, ни применять логику. Скорее этот тест проверяет не понимание прочитанного, а умение извлекать ответы из текста. Извлечение ответов – полезный навык для машин. Именно этим должны заниматься Siri, Alexa
и другие цифровые помощники: им нужно превратить ваш вопрос в поисковый запрос, а затем извлечь ответ из результатов поиска.Стэнфордская группа также протестировала людей (других работников Amazon Mechanical Turk
), чтобы их показатели можно было сравнивать с результатами компьютеров. Каждому человеку давали фрагмент текста и вопрос, после чего испытуемый должен был “выбрать кратчайший отрывок текста, в котором содержался ответ на этот вопрос”[298]. (Верный ответ давал работник Mechanical Turk, составлявший вопрос.) При оценке по такому методу люди показали точность 87 % в тесте SQuAD.Вскоре тест SQuAD
стал самой популярной метрикой способностей вопросно-ответных алгоритмов, и разработчики ОЕЯ по всему миру стали соревноваться за первое место в его таблице лидеров. Самые успешные программы использовали специальные формы глубоких нейронных сетей – более сложные версии архитектуры кодер-декодер, описанной выше. В этих системах входными сигналами выступали текст фрагмента и вопрос, а на выходе сеть выдавала свою оценку того, где начинается и заканчивается фраза, содержащая ответ.