Читаем Реализация проекта машинного обучения от A до Я на примере приложения для обобщения текста полностью

Реализация проекта машинного обучения от A до Я на примере приложения для обобщения текста

Предположим, что исполнитель успешно справился с реализацией представленной бизнес-постановки. В качестве результата работы он предоставил прототип решения задачи по обобщению текста в формате Jupyter Notebook. (см. Приложение №1)

Основные этапы работы, представленные в файле Jupyter Notebook:

Подготовка рабочей среды:

Установка всех необходимых библиотек и пакетов, проверка доступности графического процессора для ускоренных вычислений.

Загрузка данных:

Импорт предоставленных заказчиком данных и их предварительная обработка.

Выбор и загрузка модели:

Выбрана модель PEGASUS из библиотеки Hugging Face's Transformers для задачи обобщения.

Дообучение модели:

Используя предоставленные заказчиком данные, произведено дообучение модели для лучшей адаптации к специфике диалогов заказчика.

Оценка качества:

Проведена валидация и оценка качества модели на отложенной выборке.

Демонстрация работы:

Представлены примеры обобщения различных текстов с использованием обученной модели.

Этот Jupyter Notebook служит как детальное руководство по реализации решения, так и демонстрацией его эффективности.

Приложение №1 Прототип по обобщению текста в формате Jupyter Notebook

Пошаговая инструкция по запуску в реализацию проекта

По итогам предоставления прототипа заказчиком принято решение о запуске данного решения в продакшен.

Это открывает новый этап работы для исполнителя.

Модульное кодирование:

Необходимо структурировать код из Jupyter Notebook, разделив его на модули и функции, что облегчит последующую интеграцию, тестирование и поддержку решения.

Создание Web-API интерфейса:

Разработка пользовательского интерфейса, который позволит конечным пользователям легко и удобно использовать решение для обобщения текстов.

Контейнеризация:

Все компоненты решения, включая зависимости, модель и интерфейс, необходимо упаковать в Docker-контейнер. Это обеспечит портативность, масштабируемость и надежность при развертывании решения.

Разворачивание контейнера на облачной инфраструктуре заказчика:

После тестирования и упаковки решения в Docker-контейнер, оно должно быть развернуто на облачной инфраструктуре заказчика, обеспечив тем самым доступность для конечных пользователей.

Эти этапы являются ключевыми для успешного перехода от прототипа к полноценному продакшен-решению, способному обслуживать множество пользователей и интегрироваться с другими системами заказчика.

Шаг 1. Подготовка проекта

Подготовка проекта включает в себя ряд действий, направленных на настройку инфраструктуры и кода для обеспечения качественной и надежной разработки. Это важный этап в жизненном цикле проекта, который помогает избежать ошибок и сложностей на последующих этапах.

Все необходимые шаги, которые необходимо выполнить перед тем как приступить к модульному кодированию проекта, подробно со скриншотами кода, представлены в следующих разделах.

Настройка и клонирование репозитория GitHub на ПК

Первым делом в разработке любого проекта должно стать создание его «дома» – репозитория на GitHub. Эта платформа позволит нам не только хранить и версионировать код, но и настроить процесс непрерывной интеграции.

Мы задаем имя репозитория, совпадающее с названием нашего будущего проекта. Это поможет коллегам сразу понять его суть и назначение. Далее определяемся с уровнем доступа – сделать репозиторий публичным или приватным.

Как только репозиторий создан, добавляем в него файл README.md – это своего рода «паспорт» проекта с описанием его функционала и инструкциями по запуску.

Также важный шаг – добавление .gitignore и указание там Python как языка разработки. Это позволит исключить лишние промежуточные файлы из репозитория.

Завершающим аккордом станет выбор лицензии. Для открытых проектов отлично подходит лаконичная и ненавязчивая MIT – она позволит любому использовать код, указав авторство разработчиков.

Теперь у нашего проекта есть дом с просторными кодовыми хранилищами, настроен охранник в лице .gitignore и определены правила проживания благодаря выбранной лицензии.

Можно приступать к активной фазе – наполнению репозитория полезным кодом!

Получив доступ к репозиторию, созданному на GitHub, мы можем приступить к его клонированию – процессу создания полной локальной копии удаленного репозитория. Это позволит нам в дальнейшем работать с кодом на своем компьютере с последующей синхронизацией изменений обратно в удаленный репозиторий.

Для клонирования репозитория необходимо выполнить следующие действия:

Шаг1: перейти на страницу созданного репозитория на GitHub.

Перейти на страницу: