Поддержка проекта.
Поддержка со стороны высшего руководства имеет решающее значение для успеха большинства проектов науки о данных. Однако старшие ИТ-менеджеры бывают слишком сосредоточены на происходящем здесь и сейчас, следя за работой повседневных приложений, наличием резервных копий, проверяя процессы восстановления и корректируя приложения на будущее. В успешных проектах науки о данных часто спонсорами выступают старшие бизнес-руководители, а не ИТ-менеджеры. Преимущество этого состоит в том, что бизнес-руководители сосредоточены не на технологии, а на процессах, происходящих вокруг проекта, и на том, как можно использовать его результаты. Чем более сфокусирован на этом спонсор проекта, тем успешнее будет проект. По его завершении такой спонсор станет ключом к информированию остальной части организации об успехе проекта. Но даже когда в проекте в качестве лидера задействован старший руководитель, общая стратегия науки о данных в компании в долгосрочной перспективе может потерпеть неудачу, если начальные проекты будут восприняты как нечто «для галочки». Организация не должна рассматривать науку о данных как разовые проекты. Чтобы получить долгосрочные выгоды, необходимо создать потенциал для науки о данных на постоянной основе, а также использовать результаты ее проектов. Это требует долгосрочных обязательств со стороны высшего руководства и принятия науки о данных как части стратегии.Итерация.
Большинство проектов науки о данных требуют более или менее регулярных обновлений и актуализации. При каждом обновлении или итерации процесса можно добавлять новые данные, корректировки, а возможно, и новые алгоритмы. Модели оттока необходимо обновлять на регулярной основе. Частота этих итераций будет варьироваться от проекта к проекту, от ежедневных до одного раза каждые 3, 4, 6 или 12 месяцев. Для определения необходимости обновления моделей может быть встроен контроль генерируемых выходных данных.Мысли напоследок
Люди всегда абстрагировались от мира и пытались понять его, выявляя закономерности в собственном опыте. Наука о данных — последнее воплощение этого поиска, этой модели поведения. И хотя она имеет такую долгую предысторию, сила ее влияния на современную жизнь беспрецедентна. Слова «точный», «умный», «целевой» и «персонализированный» являются частью отраслевых названий науки о данных:
Наука о данных в ее современном виде представляет собой смесь больших данных, компьютерных мощностей и человеческой изобретательности в целом ряде технологических областей (от глубинного анализа данных и исследования баз до машинного обучения). Эта книга призвана дать обзор основных идей и концепций, которые необходимы для понимания науки о данных. Жизненный цикл проекта CRISP-DM делает процесс обработки данных открытым и обеспечивает структуру для перехода от данных к мудрости: формулируйте проблему, подготавливайте данные, используйте машинное обучение для выявления закономерностей и создания моделей, применяйте модели для проникновения в суть. В книге также затрагиваются этические проблемы, связанные с конфиденциальностью. У нас есть искренние и обоснованные опасения, что наука о данных может быть использована правительствами и/или заинтересованными лицами для манипулирования нашим поведением и контроля над нашими действиями. Нам необходимо выработать обоснованное мнение о том, в каком мире мы хотим жить, и подумать о законах, которые бы направили науку о данных в соответствующих направлениях. Говоря о будущем, при всех возможных этических проблемах джинн уже выпущен из бутылки: наука о данных оказывает и будет оказывать существенное влияние на нашу повседневную жизнь. При правильном использовании она сможет улучшить ее. Но для того чтобы организации, в которых мы работаем, сообщества и семьи, в которых мы живем, получали выгоду от науки о данных, нам нужно понять и изучить, что она собой представляет, как работает, что умеет и чего не умеет. Мы надеемся, что эта книга поможет вам в этом.
Глоссарий
CRISP-DM