Читаем Революция в аналитике. Как в эпоху Big Data улучшить ваш бизнес с помощью операционной аналитики полностью

Давайте начнем с признания того, что есть случаи, когда выборочный метод просто не будет работать. Если вам нужно найти 100 клиентов, обеспечивающих самые большие объемы продаж, это нельзя сделать на основе выборки. Вы должны рассмотреть каждого клиента, чтобы найти 100 лучших. Однако такие задачи, хотя и являются довольно типичными, не превалируют среди аналитических потребностей. Кроме того, существуют случаи, когда модель, даже если она построена на основе выборки, должна быть применена ко всей совокупности данных. Другими словами, когда дело доходит до практического применения модели, вариант с выборками отпадает.

Но давайте обратимся к типичной задаче, когда необходимо установить среднее значение или получить оценки параметров прогностической модели. С точки зрения статистики правильная выборка, которая адекватно отражает всю совокупность и имеет достаточный размер, даст такой же ответ, как и вся совокупность данных. В таких обычных ситуациях практически не будет разницы между ответом, полученным на выборке, и ответом, полученным на всей совокупности. Более высокая стоимость обработки массы дополнительных данных не принесет дополнительных доходов. Даже если модель в конечном итоге будет использована для обработки всех данных, нет смысла создавать модель на основе всей совокупности. Вместо этого необходимо разделить все данные на две части и использовать одну для построения, а другую для последующей валидации модели. Угадайте, что представляют собой наборы данных, предназначенные для построения и проверки модели? Это выборки! Таким образом, использования выборок данных во многих случаях попросту нельзя избежать.

Некоторые специалисты с пеной у рта утверждают, что в тех случаях, когда можно обойтись без выборки, нужно обходиться без нее. Другие считают, что использование более чем минимальной выборки – это пустая трата времени и ресурсов. Лично моя позиция такова: если некто выполняет для меня проект и хочет использовать выборку, я соглашаюсь при условии, что выборка является правильной и достаточного размера. Если же мне предлагают использовать всю совокупность данных, я соглашаюсь и на это при условии, что привлечение дополнительных ресурсов окажется незначительным. Я уверен, что получу такие же результаты, поэтому меня не беспокоит, какой именно путь будет избран. При разработке аналитического процесса существует масса спорных вопросов, поэтому не тратьте время на споры о том, использовать выборку или нет.

Не переусложняйте анализ

Впервые столкнувшись с этой проблемой, я был поражен: оказывается, чересчур изощренная аналитика иногда дает худший результат, чем простая. Это может быть верно даже в тех случаях, когда чисто теоретически более сложный метод должен работать лучше. Убежден, причина в том, что данные всегда содержат некоторую неопределенность, зачастую являются разреженными и никогда не бывают абсолютно полными. Когда аналитика усложняется, возникает риск увеличения в данных ошибок и неопределенностей наряду со снижением контроля и ухудшением их расчета. Вдобавок можно перестараться с настройкой модели, т. е. настолько ее усложнить, что она начнет отражать случайные вариации, присутствующие в конкретном наборе данных, на котором модель создавалась, а не реально существующие эффекты. Переусложненная настройка становится очевидной, когда модель плохо работает при применении к проверочной выборке.

Несколько лет назад моя команда разрабатывала модели прогнозирования продаж на уровне отдельных магазинов для крупного ретейлера. Анализ должен был охватывать сотни миллионов комбинаций магазин/товар. Многие виды товаров продавались часто и стабильно, что соответствовало предположениям, на которые опираются широко используемые алгоритмы для такого типа прогнозов. Однако также было много товаров, что не вписывались в стандартные шаблоны продаж. Клиент нанял мою команду, чтобы разработать индивидуальные решения, применимые к таким исключениям. Однако, с учетом масштабов организации, исключения все равно составляли миллионы комбинаций магазин/товар.

Не слишком изощряйтесь!

При создании аналитических процессов в операционном масштабе упрощенные решения могут оказаться лучше причудливых. Операционная аналитика часто работает с данными низкого качества, которые могут быть разреженными и неполными. Чрезмерная изощренность модели может привести к нарастанию в данных проблем, вместо того чтобы контролировать их.

Перейти на страницу:

Похожие книги

Антихрупкость. Как извлечь выгоду из хаоса
Антихрупкость. Как извлечь выгоду из хаоса

«Антихрупкость» – книга уникальная: она рассказывает о ключевом свойстве людей, систем и не только, свойстве, у которого до сих пор не было названия. В мире, где царит неопределенность, нельзя желать большего, чем быть антихрупким, то есть уметь при столкновении с хаосом жизни не просто оставаться невредимым, но и становиться лучше прежнего, эволюционировать, развиваться. Талеб формулирует простые правила, которые позволяют нам преодолеть хрупкость и действовать так, чтобы непредсказуемая неопределенность, этот грозный и внезапный Черный лебедь, не причинила нам вреда – и более того, чтобы эта редкая и сильная птица помогла нам совершенствоваться. Для этого следует в первую очередь осознать: мы по природе своей антихрупки – и не должны позволять кому бы то ни было лишать нас этого чудесного свойства.

Нассим Николас Талеб

Деловая литература / О бизнесе популярно / Финансы и бизнес
Управление бизнесом
Управление бизнесом

Harvard Business Review – главный деловой журнал в мире. Если вы не читали других книг из серии «HBR: 10 лучших статей», то прочтите эту, в определенном смысле саму важную. Для нее из сотен статей журнала редакторы HBR отобрали те, в которых влиятельные бизнес-эксперты рассказывают о том, как следует внедрять инновации в управление бизнесом, о роли руководителя во времена болезненных перемен; какие данные помогут распознать потребности клиента и улучшить свой продукт; какие вопросы должен себе задавать каждый хороший руководитель и что ему следует делать, чтобы подчиненные были эффективны и мотивированы на достижение лучших результатов. В книге вы найдете предельно конкретные и практические ответы на эти и другие важные для бизнесмена вопросы.

Harvard Business Review (HBR) , Джон Коттер , Майкл Овердорф , Майкл Портер , Теодор Левитт

Деловая литература / Управление, подбор персонала / Финансы и бизнес