Промышленное производство
Промышленный Интернет вещей | Промышленные материалы | Техническое обслуживание и ремонт оборудования | Промышленное программирование |
home  MfgRobots >> Промышленное производство >  >> Manufacturing Technology >> Промышленные технологии

Как избежать ошибок с проектами анализа данных

Недавнее исследование Capgemini показало, что 15% инициатив в области больших данных в Европе терпят неудачу. Чтобы убедиться, что ваш проект входит в число 85% успешных, я суммировал четыре основных подводных камня, которых следует остерегаться. (Это сообщение в блоге содержит первые две ошибки, два других будут опубликованы в другом сообщении в блоге. )

Зная об этом и принимая их во внимание, вы значительно повысите шансы на успех вашего проекта по анализу данных. Не волнуйтесь:вы ни в коем случае не единственный, кто сталкивается с этими проблемами и ловушками. На нашем начальном семинаре по анализу данных мы регулярно видим участников, которые с ними сталкиваются, вплоть до конца проекта. Здесь я хотел бы поделиться с вами своими мыслями о многих успешных семинарах и проектах, указать на основные подводные камни и проиллюстрировать их примерами использования.

1. Инициатор - ИТ vs. отдел

Аналитика данных и большие данные - это не одно и то же, даже если они часто используются как взаимозаменяемые.

ИТ-отделы часто рассматривают проекты через «очки больших данных». Они предоставляют инфраструктуру для сбора больших объемов данных; например, в виде кластеров баз данных. В этих базах данных хранятся огромные объемы данных, что само по себе не создает добавленной стоимости для компании. Вот почему проект по анализу данных всегда должен иметь четко определенную технологическую, а также коммерческую цель. Сбор данных только ради них не приносит компании никакой выгоды.

Добавленная стоимость возникает только тогда, когда компания использует данные и полученные в результате идеи. Вот тут-то и появляются его (неадминистративные) отделы. Они определяют, каких целей они хотят достичь с помощью аналитики данных, а не с помощью больших данных. Они обеспечивают техническое понимание, которое позволяет специалистам по обработке данных целенаправленно работать с данными. Поэтому тесное сотрудничество между поставщиком идей (отделом) и специалистами по обработке данных является абсолютной необходимостью для достижения поставленной цели проекта.

Другими словами:успех или провал проекта по анализу данных зависит от того, что и насколько понимание технических процессов передается специалистам по данным. Инженеры по анализу данных также играют здесь важную роль. Они поддерживают «перевод» и передачу знаний между различными дисциплинами. Инженеры по анализу данных опираются на свой опыт работы в сфере производства или логистики и хорошее базовое понимание подходов к анализу данных. Эксперты по данным должны понимать не только цель проекта, но и, в частности, корреляции в данных. Что еще более важно, они должны видеть его связь с реальным миром (машины, датчики и т. Д.) И соответствующие этапы процесса.

Как показывает исследование Capgemini, ИТ-отделы часто выступают инициаторами проектов по анализу данных. Само по себе это не проблема, если другие отделы принимают активное участие и определяют технические цели проекта.

2. Не все данные одинаковы

Проект инициирован, его цель определена - вперед!

Стоп!

Прежде чем специалисты по обработке данных смогут начать работу, вам необходимо проверить качество и количество данных.

а) Качество данных

Здесь важно учитывать, в каком формате доступны данные, где искать какие данные и являются ли данные прозрачными для разных источников.

Пример:

Чтобы интегрировать набор данных из нескольких источников, вам нужен уникальный идентификатор, позволяющий правильно сопоставить данные. Это может быть, например, отметка времени или номер детали. Использование метки времени усложняет интеграцию, если в отдельных источниках данных используются разные форматы даты / времени (немецкий и американский формат даты, время в UTS и т. Д.); однако это все еще возможно. Напротив, это практически невозможно, если используются разные временные базы. Это тот случай, когда не существует единой временной синхронизации, которая генерирует отметки времени для всех источников данных.

б) Количество данных

Как говорится, чем больше, тем лучше. Но что касается аналитики данных, это верно лишь отчасти. В целом, конечно, чем больше у вас данных, тем лучше. Однако и здесь необходимо учитывать ряд ключевых аспектов.

В зависимости от определения технической цели, например, может быть важно, чтобы базовые данные содержали не только положительные результаты, но и достаточное количество отрицательных результатов.

Пример:прогноз отрицательного результата

Если целью проекта является разработка модели для прогнозирования отрицательного результата, набор обучающих данных, используемый для обучения модели прогнозирования, должен содержать достаточное количество отрицательных результатов. В противном случае модель не сможет изучить эти негативные результаты и, следовательно, не сможет их предсказать - следовательно, вы не сможете достичь цели проекта с этим набором данных! По этой причине при составлении набора обучающих данных вы должны убедиться, что он содержит достаточное количество прогнозируемого параметра (целевая переменная) - в приведенном выше примере отрицательные результаты. Один из способов добиться этого - увеличить период времени, за который собираются данные.

в) «Правильные» данные

Итак, ясно, что количество данных - не единственный критерий. Прежде всего, вам нужны правильные данные!

Что мы подразумеваем под «правильными данными»?

Данные должны содержать соответствующую информацию, необходимую для достижения цели технического проекта. Если, например, вы хотите разработать модель для прогнозирования качества продукта, определяемого измерением шероховатости поверхности, эта переменная должна быть представлена ​​в наборе данных. Если вы проведете измерение без последующего сохранения измеренного значения, вы не сможете разработать соответствующую модель. Это тоже не является неразрешимой проблемой, но может задержать прогресс, потому что сначала необходимо создать адекватную базу данных (например, с помощью дополнительных сенсорных технологий, сохранения соответствующих данных и т. Д.).

Кто будет гарантировать успех вашего проекта по анализу данных?

Источник:Bosch.IO

Чтобы помочь экспертам достичь а), б) и в), мы взяли опыт, накопленный во многих успешных проектах, и объединили его в рекомендациях по качеству данных, которые мы предоставляем в начале проекта. Мы также занимаемся этой темой на начальных семинарах, определяя те варианты использования, которые принесут быстрые результаты. Таким образом, мы повышаем осведомленность экспертов-производителей об этих темах, что всегда оказывается явным преимуществом на следующих этапах процесса.


Промышленные технологии

  1. Обновление Индустрии 4.0 с помощью пограничной аналитики
  2. Оптимизация производства с помощью аналитики больших данных
  3. Как избежать проблем с бывшими в употреблении станками с ЧПУ
  4. Повышение бизнес-результатов с помощью проектов больших данных и искусственного интеллекта
  5. Три ловушки доставки на последней миле - и как их избежать
  6. Как наука о данных помогла в борьбе со вспышкой коронавируса
  7. Data Mining, AI:как промышленные бренды могут идти в ногу с электронной коммерцией
  8. Как облачная аналитика может ускорить преобразование цифровой цепочки поставок
  9. 5 причин провала проектов IoT и как этого избежать
  10. Разработка проектов промышленного машинного обучения:3 распространенные ошибки, которых следует избегать