Читаем Реализация проекта машинного обучения от A до Я на примере приложения для обобщения текста полностью

Предположим, что исполнитель успешно справился с реализацией представленной бизнес-постановки. В качестве результата работы он предоставил прототип решения задачи по обобщению текста в формате Jupyter Notebook. (см. Приложение №1)

Основные этапы работы, представленные в файле Jupyter Notebook:

Подготовка рабочей среды:

Установка всех необходимых библиотек и пакетов, проверка доступности графического процессора для ускоренных вычислений.

Загрузка данных:

Импорт предоставленных заказчиком данных и их предварительная обработка.

Выбор и загрузка модели:

Выбрана модель PEGASUS из библиотеки Hugging Face's Transformers для задачи обобщения.

Дообучение модели:

Используя предоставленные заказчиком данные, произведено дообучение модели для лучшей адаптации к специфике диалогов заказчика.

Оценка качества:

Проведена валидация и оценка качества модели на отложенной выборке.

Демонстрация работы:

Представлены примеры обобщения различных текстов с использованием обученной модели.

Этот Jupyter Notebook служит как детальное руководство по реализации решения, так и демонстрацией его эффективности.

Приложение №1 Прототип по обобщению текста в формате Jupyter Notebook

Пошаговая инструкция по запуску в реализацию проекта

По итогам предоставления прототипа заказчиком принято решение о запуске данного решения в продакшен.

Это открывает новый этап работы для исполнителя.

Модульное кодирование:

Необходимо структурировать код из Jupyter Notebook, разделив его на модули и функции, что облегчит последующую интеграцию, тестирование и поддержку решения.

Создание Web-API интерфейса:

Разработка пользовательского интерфейса, который позволит конечным пользователям легко и удобно использовать решение для обобщения текстов.

Контейнеризация:

Все компоненты решения, включая зависимости, модель и интерфейс, необходимо упаковать в Docker-контейнер. Это обеспечит портативность, масштабируемость и надежность при развертывании решения.

Разворачивание контейнера на облачной инфраструктуре заказчика:

После тестирования и упаковки решения в Docker-контейнер, оно должно быть развернуто на облачной инфраструктуре заказчика, обеспечив тем самым доступность для конечных пользователей.

Эти этапы являются ключевыми для успешного перехода от прототипа к полноценному продакшен-решению, способному обслуживать множество пользователей и интегрироваться с другими системами заказчика.

Шаг 1. Подготовка проекта

Подготовка проекта включает в себя ряд действий, направленных на настройку инфраструктуры и кода для обеспечения качественной и надежной разработки. Это важный этап в жизненном цикле проекта, который помогает избежать ошибок и сложностей на последующих этапах.

Все необходимые шаги, которые необходимо выполнить перед тем как приступить к модульному кодированию проекта, подробно со скриншотами кода, представлены в следующих разделах.

Настройка и клонирование репозитория GitHub на ПК

Первым делом в разработке любого проекта должно стать создание его «дома» – репозитория на GitHub. Эта платформа позволит нам не только хранить и версионировать код, но и настроить процесс непрерывной интеграции.

Мы задаем имя репозитория, совпадающее с названием нашего будущего проекта. Это поможет коллегам сразу понять его суть и назначение. Далее определяемся с уровнем доступа – сделать репозиторий публичным или приватным.

Как только репозиторий создан, добавляем в него файл README.md – это своего рода «паспорт» проекта с описанием его функционала и инструкциями по запуску.

Также важный шаг – добавление .gitignore и указание там Python как языка разработки. Это позволит исключить лишние промежуточные файлы из репозитория.

Завершающим аккордом станет выбор лицензии. Для открытых проектов отлично подходит лаконичная и ненавязчивая MIT – она позволит любому использовать код, указав авторство разработчиков.

Теперь у нашего проекта есть дом с просторными кодовыми хранилищами, настроен охранник в лице .gitignore и определены правила проживания благодаря выбранной лицензии.

Можно приступать к активной фазе – наполнению репозитория полезным кодом!



Получив доступ к репозиторию, созданному на GitHub, мы можем приступить к его клонированию – процессу создания полной локальной копии удаленного репозитория. Это позволит нам в дальнейшем работать с кодом на своем компьютере с последующей синхронизацией изменений обратно в удаленный репозиторий.

Для клонирования репозитория необходимо выполнить следующие действия:

Шаг1: перейти на страницу созданного репозитория на GitHub.

Перейти на страницу:

Похожие книги

С компьютером на ты. Самое необходимое
С компьютером на ты. Самое необходимое

Рассказывается о работе в операционной системе Windows (на примере версий XP и 7), текстовом редакторе Word 2010 и других приложениях, необходимых каждому пользователю: архиваторах, антивирусах и программах для просмотра видео и прослушивания музыки (Winamp, QuickTime Pro). Большое внимание уделяется работе в Интернете. Рассказывается о программах для просмотра Web-страниц, об электронной почте, а также о различных полезных приложениях для работы в сети — менеджерах закачек файлов, ICQ, Windows Live Messenger, MSN и многих других. Во втором издании рассмотрена новая ОС — Windows 7, а также последние версии приложений для пользователей.Для начинающих пользователей ПК.

Андрей Александрович Егоров , Андрей Егоров

Зарубежная компьютерная, околокомпьютерная литература / Прочая компьютерная литература / Книги по IT
Восстановление данных на 100%
Восстановление данных на 100%

В книге изложены методы восстановления данных с различных носителей информации – жестких дисков, массивов RAID, CD, DVD, карт флэш-памяти, карт фотоаппаратов и мобильных телефонов. Ремонт поврежденного оборудования рассматривается в издании только как один из аспектов всего процесса извлечения данных. Основная тема – извлечение данных, поврежденных из-за физических или логических нарушений в работе компьютерной системы либо неверных действий пользователя. В книге рассматривается восстановление случайно удаленных файлов, извлечение ценной информации с поломанных жестких дисков; описываются программы и методика восстановления данных с поврежденных массивов RAID, что критически важно для работы корпоративных компьютерных систем.Книга не требует специальной подготовки читателя: простые пошаговые процедуры восстановления данных предваряются описанием принципов их хранения на различных носителях.

Петр Андреевич Ташков

Зарубежная компьютерная, околокомпьютерная литература / Прочая компьютерная литература / Книги по IT