Промышленное производство
Промышленный Интернет вещей | Промышленные материалы | Техническое обслуживание и ремонт оборудования | Промышленное программирование |
home  MfgRobots >> Промышленное производство >  >> Industrial Internet of Things >> Интернет вещей

Аргумент тузов:общие термины для энтузиастов больших данных

Большие данные загружены громкими словами. Хорошее понимание общих терминов, связанных с данными, поможет вам не только понять, но и присоединиться к обсуждениям, касающимся инициатив в области данных, и влиять на них. Следите за жизненно важными обсуждениями эволюции и революции данных на сайте www.datamakespossible.com.

Хорошо, давайте начнем, демистифицируем некоторые термины, которые вы слышали раньше, и представим пару, которая может быть совершенно новой.

Специалист по анализу данных

Объединяя равные части науки, бизнеса и искусства, специалист по анализу данных использует знания алгоритмов, инструментов и процессов для извлечения некоторой ценности из данных. Специалист по данным часто использует машинное обучение или искусственный интеллект для добычи, группировки или анализа наборов данных.

Гетероскедастичность и гетероскедастичность данных

Гетеро ЧТО ? Возможно, это новый термин для вас, поэтому давайте рассмотрим очень простой пример того, что это значит.

Некоторые данные являются постоянными и никогда не меняется. Вчерашние блоги - постоянные. Пока мы не изобретем путешествия во времени, вы не сможете вернуться и изменить то, что кто-то сделал вчера.

Следующий уровень сложности данных - линейный . . Очередь или голосовая почта - это пример линейного роста. Если один работник может обрабатывать десять сообщений в час, тогда нам понадобится пять рабочих, чтобы обрабатывать 50 сообщений в час. Данные, которые растут по квадратичной мода будет расти в 4 раза (или больше) быстрее. Примером этого могут быть социальные сети. Когда вы пишете сообщение, его могут прочитать 4, 10, 100 или даже миллионы людей. Эти люди могут делиться вашим постом, комментировать его или иным образом генерировать метаданные, которые меняются каждую секунду. Здесь мы начинаем переходить к гетероскедастичности. Он характеризуется высокой скоростью (он быстро перемещается и изменяется) и высокой вариабельностью (т.е. непростой способ предсказать, кто комментирует, делится публикацией и лайкает ее или какова будет скорость ответа).

Еще одна замечательная аналогия - кулинария. При приготовлении еды мы комбинируем ингредиенты по-разному, чтобы попытаться создать что-то (надеюсь) восхитительное. Любой, кто пробовал готовить, знает, что любое количество небольших изменений - добавление небольшого количества соли, приготовление в течение 2 минут слишком долгое, слишком большое или маленькое нарезание помидоров - может иметь огромное влияние на результат и согласованность окончательного рецепта. для этого фирменного блюда.

Даже если вы никогда раньше не использовали этот термин, гетероскедастичность - это то, с чем вы все чаще сталкиваетесь при рабочих нагрузках промышленного Интернета вещей. Это особенно верно при работе с высокоскоростными данными (например, потоковой передачей) или часто при работе с неструктурированными, быстро меняющимися данными, такими как HTML-страницы, которые просматривает веб-сканер Google.

Машинное обучение

Машинное обучение (ML) - это область информатики, которая позволяет компьютерам распознавать и извлекать закономерности из необработанных данных посредством тщательного обучения моделей данных.

Машинное обучение поддерживает «три компонента больших данных» - классификацию, кластеризацию и совместную фильтрацию.

Классификация - это проблема определения того, к какому набору категорий / подкатегорий или совокупности / подгруппы принадлежит новый шаблон для обучающих наборов данных, которые содержат этот шаблон или экземпляры, где категория уже идентифицирована. и известно. Например, классификация может включать в себя обучение алгоритма, чтобы сказать, распознавать опухоли в наборе МРТ-сканирований, а затем попросить алгоритм идентифицировать другие сканирования, у которых есть опухоли.

Кластеризация включает в себя группирование точек необработанных данных в наборы или «кластеры». Примером может служить алгоритм машинного обучения, который обрабатывает веб-журналы в режиме реального времени, группируя допустимый трафик (для разрешения) в одну категорию и возможные атаки (для блокировки) в другой.

Совместная фильтрация - это просто модное слово для обозначения «рекомендаций». Примером может служить определение и отображение продуктов, которые демонстрируют некоторую близость друг к другу.

Многое из того, что мы делаем в машинном обучении, называется «поверхностным обучением». Глубокое обучение обычно является составной частью настоящего искусственного интеллекта.

Искусственный интеллект

Искусственный интеллект (ИИ) охватывает и расширяет возможности машинного обучения, предоставляя компьютерам возможность выполнять глубокий когнитивный анализ.

В то время как машинное обучение обычно включает в себя какое-то первоначальное вмешательство человека в создание, настройку или обучение алгоритмов (например, передачу сканированных изображений опухолей в компьютер), ИИ позволяет компьютеру выбирать, настраивать и приучить себя выполнять какую-то конкретную функцию. В конечном итоге ИИ использует глубокое обучение для имитации процессов принятия решений и обучения человеком.

Вы можете этого не осознавать, но ИИ, вероятно, является частью вашей повседневной жизни. Подробнее об этом в определении НЛП ниже.

Виртуальная реальность

Виртуальная реальность (VR) позволяет пользователям войти в виртуальные миры, которые выглядят и звучат совершенно иначе, чем их физическое окружение.

VR обеспечивает такие развлечения, как виртуальные американские горки, но также имеет важные коммерческие приложения. VR обычно требует гарнитуры с цифровым дисплеем.

Дополненная реальность

Дополненная реальность (AR) стремится накладывать цифровые артефакты поверх реального мира, обеспечивая взаимодействие. В последнее время AR приобрела широкую популярность благодаря популярности игровых приложений.

Обработка естественного языка

Обработка естественного языка (NLP) позволяет компьютерам анализировать и понимать письменный или устный человеческий язык. Если вы разговариваете по телефону или дома, вы, вероятно, испытали НЛП.

НЛП - отличное место для объяснения разницы между глубоким и поверхностным обучением. НЛП первого поколения (поверхностное обучение) было сосредоточено на разбиении предложения на токены (слова), а затем применении некоторых правил к токенам. Однако сегодняшнее НЛП с глубоким обучением рассматривает весь контекст утверждения и объясняет его истинное значение.

Представьте себе письменный веб-обзор. При поверхностном обучении будет просто рассматриваться ограниченное количество маркеров данных, таких как «количество звезд в рейтинге отзывов» и базовый «анализ настроений». Это может включать подсчет количества положительных и отрицательных слов. Эти данные обрабатываются с помощью набора часто непостоянных правил, позволяющих сделать вывод о том, был ли отзыв положительным или отрицательным.

Механизм глубокого обучения применяет больше интеллекта к этому анализу - почти как то, что человек мог бы предположить, прочитав тот же обзор. Например, если в обзоре было много «положительных» оценок, таких как пять звезд, хорошее соотношение положительных и отрицательных оценок и т. Д., Неглубокий механизм НЛП мог бы сделать вывод, что это положительный отзыв. Однако движок НЛП с глубоким обучением может интерпретировать (как это сделал бы человек), что обзор был на самом деле негативным после того, как прочитал:«Я никогда больше не куплю этот продукт». Одно только это предложение отрицает любые положительные эмоции, которые мог выразить пользователь.

Распознавание изображений

Распознавание изображений позволяет компьютерам определять значение простого визуального изображения. Он часто входит в состав предложений провайдера по машинному обучению или искусственному интеллекту (вместе с НЛП).

Распознавание изображений позволяет компьютерам определять такие объекты, как письменный язык, с помощью оптического распознавания символов или OCR (текст на рекламных щитах), отмечать объекты (например, «гора», «дерево», «автомобиль», «небоскреб»). и даже выполнять анализ лица (например, рисовать ограничивающие рамки вокруг лиц).

Автомобильная промышленность в настоящее время выводит распознавание изображений на совершенно новый уровень благодаря применению анализа лиц для обнаружения и предупреждения водителей, которые могут чувствовать усталость.

Структурированные, неструктурированные, полуструктурированные данные

Раньше большая часть данных, с которыми мы работали, были сильно структурированы. Это означает, что он хорошо вписывается в формат строки / столбца (например, базы данных). В результате многие компьютерные системы были разработаны для приема и генерации данных такой формы.

Люди - другое животное. Мы преуспеваем в создании и использовании неструктурированных данных, таких как свободный текст, голос и изображения, такие как снимки с камеры. Все эти данные по своей сути не имеют никакой «структуры». Мы не можем «зависеть» от определенных языков, слов, интонаций и т. Д.

Полуструктурированные данные находятся где-то посередине. Хороший пример - электронная почта. У него есть некоторая структура, такая как «тема», «до», «от», «дата», но основная полезная нагрузка - это кусок неструктурированного текста в «теле» электронного письма.

Только за последние 10 лет наши компьютерные системы стали достаточно мощными, чтобы выполнять анализ неструктурированных данных.

Озеро данных

Любой аналитический движок, например Hadoop, предоставляет как хранилище, так и вычислительные ресурсы, часто в тесной взаимосвязи. Каждый раз, когда вы добавляете дополнительную обработку, вы, по сути, добавляете больше памяти.

Однако многие организации сидят на куче (петабайтах) данных, которые они хотят надежно хранить, но не анализировать немедленно. Одна из причин задержки - это предварительная обработка и очистка данных, которые могут потребоваться перед анализом.

Озеро данных обеспечивает недорогое, надежное, доступное из любого места хранилище с ограниченными вычислительными ресурсами. Это позволяет хранить гораздо больше данных, чем то, что обрабатывается за один раз.

С точки зрения рецептурной парадигмы озеро данных похоже на кладовую с сырыми ингредиентами (овощи, рис, бульон). Только когда вы хотите приготовить, вы выбираете нужное подмножество ингредиентов в соответствии с рецептом и готовите их для этого блюда.

База данных

То, что мы обычно называем «базой данных», также известно как система управления реляционными базами данных (RDBMS) или система OLTP (онлайн-обработка транзакций). Oracle, MySQL, SQL Server - типичные примеры этого.

Многие небольшие «транзакции», которые (обычно) исходят от конечных пользователей, характеризуют РСУБД.

Подумайте о веб-сайтах розничной электронной торговли. В любой момент несколько сотен тысяч пользователей выполняют небольшие операции чтения (запросов) и записи (вставки), когда они просматривают продукты, читают обзоры, создают заказы и т. Д. Ожидается, что эти системы будут выполнять эти запросы очень быстро.

Хранилище данных

Хранилище данных (также известное как корпоративное хранилище данных или EDW) - это место, где компания запускает аналитику, чтобы ответить на несколько важных бизнес-вопросов. Какая у нас самая быстрорастущая линейка продуктов? Какие категории продуктов имеют лучшую рентабельность инвестиций? Какие регионы, категории, продавцы и т. Д. У нас хуже всего?

EDW обычно используются только небольшой группой (возможно, дюжиной или несколькими десятками) внутренних пользователей, выполняющих длительные запросы к массивным (возможно, сотням или десяткам ТБ) наборов данных.

Визуализация

Инструмент визуализации предоставляет визуальный интерфейс для выполнения сложной аналитики.

Используя простое перетаскивание мышью, даже неквалифицированные стажеры могут создавать множество сложных отчетов, таких как квартальные продажи, самые продаваемые продукты, рост и т. д.

Эти системы обычно требуют, чтобы механизм, к которому вы их подключаете, имел интерфейс SQL, который (не случайно) предоставляет каждая СУБД и EDW. Если вы похожи на большого числа аналитиков данных, 95% вашего взаимодействия с вашими системами будет происходить с помощью одного из этих инструментов визуализации.

Надеюсь, вам понравился этот краткий обзор общих терминов, которые мы находим в больших данных. Не стесняйтесь теперь произвести впечатление на людей, сидящих за кулером для воды, обсудив, как визуализация беспрецедентного роста данных, преимущества создания озера данных, раскрытие ценности гетероскедастических данных с помощью машинного обучения и искусственного интеллекта полностью меняют мир. Хотите узнать, как данные влияют на мир? Теперь, когда вы говорите на жаргоне, присоединяйтесь к обсуждениям на сайте datamakespossible.com.

Эта статья подготовлена ​​в сотрудничестве с Western Digital.

Автор - научный сотрудник и главный специалист по данным, Western Digital. Он формирует, продвигает и внедряет платформу, продукты и технологии для больших данных, используя расширенную аналитику и сопоставление с образцами в производстве полупроводников. данные на фирме.


Интернет вещей

  1. Преимущества адаптации решений IIoT и анализа данных для EHS
  2. Перспективы развития промышленного Интернета вещей
  3. Трилемма:три совета по эффективной работе подстанции
  4. Четыре большие проблемы для промышленного Интернета вещей
  5. Возможность интеграции визуальных данных с IoT
  6. Дополненная реальность - следующая важная вещь для HR?
  7. Пора перемен:новая эра на краю
  8. Подготовка почвы к успеху в области науки о промышленных данных
  9. Тенденции продолжают продвигать обработку до края для ИИ
  10. Могут ли большие данные стать панацеей от скудных бюджетов здравоохранения?