Промышленное производство
Промышленный Интернет вещей | Промышленные материалы | Техническое обслуживание и ремонт оборудования | Промышленное программирование |
home  MfgRobots >> Промышленное производство >  >> Industrial Internet of Things >> Интернет вещей

Подготовка файловых данных для облачных озер данных

Стратегия облачного озера данных — это естественная эволюция корпоративных ИТ-организаций, работающих с большими объемами данных, которые переходят в облако, поскольку она превращает облако из дешевого шкафчика для хранения данных в место, где данные можно использовать для получения новой ценности и монетизации.

Если 2020 и 2021 годы были годами быстрого ускорения облачных вычислений, то 2022 год станет годом, когда предприятия начнут серьезно относиться к переносу неструктурированных файловых данных в облачные озера данных. Есть несколько причин этой тенденции. Во-первых, организациям приходится иметь дело с петабайтами неструктурированных данных, которые сегодня составляют не менее 80% из 64 зетабайт данных (и их количество растет) в хранилищах по всему миру. В основном это файловые данные — от медицинских изображений до потокового видео, данные датчиков электромобилей и продуктов Интернета вещей, а также документы, которые люди используют во всех сферах для совместной работы и ведения бизнеса.

Во-вторых, файловые данные становятся неуправляемыми, их хранение обходится дорого, и ИТ-директора знают, что они сидят на потенциальном золотом руднике идей, если бы только они могли определить, как поместить их в нужные места для анализа. Наконец, основные облачные платформы вкладывают значительные средства в инструменты анализа данных, машинного обучения и искусственного интеллекта, а также в недорогие уровни хранения объектов для поддержки проектов озера данных.

См. также: Озера данных, данные временных рядов и промышленная аналитика

Созревание озер данных в облаке

Согласно недавнему исследованию, которое мы провели, создание озер данных является одной из главных целей, которым ИТ-менеджеры уделяют первоочередное внимание, наряду с безопасностью, управлением затратами и прозрачностью. Облако перевернуло традиционные стратегии озер данных, которые начались, когда компании хотели анализировать частично структурированные данные, такие как CSV и файлы журналов. В 2006 году родился Hadoop, который получил широкое распространение как раз в то время, когда начали распространяться разговоры о больших данных. Однако в конечном итоге Hadoop оказался медленнее и дороже, чем ожидалось, сложным в настройке, масштабировании и управлении и в первую очередь предназначенным для пакетной обработки. Чтобы решить эти проблемы, на сцену вышел Apache Spark, работающий до 100 раз быстрее для некоторых рабочих нагрузок и хорошо подходящий для анализа в реальном времени. Важно отметить, что такие компании, как Databricks, сосредоточились на запуске Spark в облаке, тогда как Hadoop в основном внедрялся локально.

За последние несколько лет облачные платформы озер данных стали более совершенными и теперь готовы к работе в прайм-тайм. Более дешевое масштабируемое объектное хранилище облачных провайдеров предоставляет платформу для масштабных проектов масштаба в несколько петабайт, которые просто не могут быть реализованы локально. Озера данных следующего поколения созданы на основе Apache Spark для поддержки S3 или хранения объектных данных, что позволяет принимать и обрабатывать полуструктурированные и неструктурированные данные. Хранилище файлов также переносится в облако, и его необходимо использовать как часть облачного озера данных, поэтому не все данные могут находиться в объектном хранилище.

Стратегия облачного озера данных — это естественная эволюция корпоративных ИТ-организаций, работающих с большими объемами данных, которые переходят в облако, поскольку она превращает облако из дешевого шкафчика для хранения данных в место, где данные можно использовать для получения новой ценности и монетизации.

Как обуздать облачное озеро данных

Несмотря на то, что облачные озера данных еще только зарождаются, включение файловых данных в ваше озеро данных является обязательным, поскольку модели машинного обучения требуют больших объемов данных для получения значимых результатов. Тем не менее, эти неструктурированные данные не стандартизированы между типами файлов:видеофайлы, аудиофайлы, данные датчиков, журналы не имеют общей структуры. И сбрасывать все эти файловые данные волей-неволей в платформу облачного озера данных — не мудрая стратегия, а беспорядок, который нужно убрать позже. Несмотря на свои обещания, озера данных сопряжены со многими рисками, начиная от высоких затрат на управление, пробелов в навыках, проблем безопасности и управления, проблем переносимости при перемещении данных между облаками и платформами хранения и давнего беспокойства о том, что озеро данных превращается в болото, когда данные становится слишком большим и запутанным для поиска и анализа.

Вот несколько соображений по переносу файловых данных в облачное озеро данных, чтобы избежать или свести к минимуму разногласия .

<ол тип="1">
  • Оптимизируйте озеро данных. Прежде чем любые данные можно будет проанализировать, их необходимо очистить, нормализовать и классифицировать, что может быть очень ручным процессом, способствующим перерасходу средств и замедлению времени окупаемости. Это всегда было проблемой для инициативы хранилища данных, и то же самое относится к озерам данных и хранилищам данных. Озера данных привлекательны тем, что они могут принимать данные в исходном формате; необходимость оптимизации перед вводом данных в озеро разрушает эту простоту использования. Как можно автоматически оптимизировать данные файла, не требуя изменения поведения пользователя? Ключом к оптимизации файловых данных являются метаданные:информация о типах файлов, датах создания и последнего доступа, владельцах, проектах и ​​местоположении. Возможность автоматически индексировать файлы и помечать их тегами в свойствах метаданных позволит избежать проблем с болотом данных и упростить поиск и сегментацию в дальнейшем, а не просто оставлять озера данных неуправляемыми.
  • Используйте индексацию метаданных, чтобы найти точные наборы данных для конкретных нужд. Инструменты, которые могут индексировать файлы и искать метаданные в хранилище (включая локальные, периферийные и облачные расположения), могут сузить миллиарды файлов до нескольких тысяч, чтобы вы отправляли в облако только те файлы, которые хотите проанализировать.
  • Пометьте данные по мере их поступления, чтобы улучшить поиск и удобство использования . Как только вы найдете нужные файлы, вы можете использовать систему машинного обучения для дальнейшего уточнения поиска с помощью большего количества тегов. Этот процесс должен быть непрерывным и автоматизированным, чтобы со временем была разработана дополнительная структура, и в вашем озере данных появился более удобный поиск, а также более высокое качество в целом.
  • Приспосабливайтесь к краю. По мере роста периферийных вычислений из-за новых вариантов использования данных датчиков потоковая передача данных с периферии станет неприемлемой. Как можно обрабатывать больше данных на периферии и использовать только то, что вам нужно, в облачном озере данных? Первичная предварительная обработка будет становиться все более важной по мере роста объемов периферийных данных.
  • Создавайте таксономии по отраслям. Стандартной номенклатуры тегов для каждой отрасли не существует. Наличие некоторых общих классификаций тегов по секторам облегчит поиск и извлечение данных, особенно в средах совместной работы, таких как исследования и науки о жизни.
  • Обеспечение мобильности данных. Чтобы быть по-настоящему мобильными, данные должны иметь возможность находиться в разных системах в гибридных облачных средах, а также иметь естественный доступ к службам в этих средах. Разблокировка данных из проприетарных систем хранения возвращает контроль ИТ-специалистам и устраняет расходы и проблемы при перемещении данных с одной платформы на другую. Способ использования и доступа к данным, а также их ценность со временем меняются. Защищая свои данные от будущего, вы можете адаптироваться к изменениям и новым требованиям. Здесь могут помочь независимые решения для мобильности данных и управления ими.
  • Создайте правильную культуру. Согласно исследованию New Vantage Partners, проведенному в 2021 году, ведущие ИТ-организации продолжают считать культуру — людей, процессы, организацию, управление изменениями — самым большим препятствием на пути к тому, чтобы стать организациями, управляемыми данными. Культура, основанная на данных, должна охватывать не только аналитиков и бизнес-подразделения, но и группы ИТ-инфраструктуры. ИТ-руководители должны будут сыграть свою роль, помогая специалистам по хранению данных, серверам и сетям переориентировать свои обязанности и повседневные задачи на структуру принятия решений, ориентированную на данные. Инструменты и процессы должны быть кросс-функциональными, позволяющими получить целостное представление о ресурсах данных организации и совместно разрабатывать стратегии управления этими активами в интересах организации.
  • Облачные озера данных приобрели популярность, поскольку данные можно принимать в исходном формате без обширной предварительной обработки, необходимой для хранилищ данных. Обратной стороной является то, что озера данных превратились в болота данных, особенно для неструктурированных файловых данных, поскольку эти данные не имеют общей структуры. Анализ файловых данных становится все более важным с появлением механизмов AI/ML, которые полагаются на него. Озера облачных данных можно оптимизировать для неструктурированных данных, не лишая их привлекательности при приеме данных в собственном формате за счет автоматизации индексации, поиска, сбора и оптимизации файловых данных.


    Интернет вещей

    1. Создайте свою облачную инфраструктуру для повышения производительности и эффективности
    2. Готова ли ваша ИТ-карьера к облаку?
    3. 5 лучших практик безопасности для резервного копирования AWS
    4. Как определить стратегию обработки данных для многооблачного мира
    5. Как подготовиться к использованию ИИ с помощью Интернета вещей
    6. GE представляет облачный сервис для промышленных данных, аналитики
    7. Готова ли ваша система к IoT?
    8. Что такое туманные вычисления и что они означают для Интернета вещей?
    9. Облако в Интернете вещей
    10. Преимущества использования облачных вычислений для хранения данных IoT