Подготовка файловых данных для облачных озер данных
Стратегия облачного озера данных — это естественная эволюция корпоративных ИТ-организаций, работающих с большими объемами данных, которые переходят в облако, поскольку она превращает облако из дешевого шкафчика для хранения данных в место, где данные можно использовать для получения новой ценности и монетизации.
Если 2020 и 2021 годы были годами быстрого ускорения облачных вычислений, то 2022 год станет годом, когда предприятия начнут серьезно относиться к переносу неструктурированных файловых данных в облачные озера данных. Есть несколько причин этой тенденции. Во-первых, организациям приходится иметь дело с петабайтами неструктурированных данных, которые сегодня составляют не менее 80% из 64 зетабайт данных (и их количество растет) в хранилищах по всему миру. В основном это файловые данные — от медицинских изображений до потокового видео, данные датчиков электромобилей и продуктов Интернета вещей, а также документы, которые люди используют во всех сферах для совместной работы и ведения бизнеса.
Во-вторых, файловые данные становятся неуправляемыми, их хранение обходится дорого, и ИТ-директора знают, что они сидят на потенциальном золотом руднике идей, если бы только они могли определить, как поместить их в нужные места для анализа. Наконец, основные облачные платформы вкладывают значительные средства в инструменты анализа данных, машинного обучения и искусственного интеллекта, а также в недорогие уровни хранения объектов для поддержки проектов озера данных.
См. также: Озера данных, данные временных рядов и промышленная аналитика
Созревание озер данных в облаке
Согласно недавнему исследованию, которое мы провели, создание озер данных является одной из главных целей, которым ИТ-менеджеры уделяют первоочередное внимание, наряду с безопасностью, управлением затратами и прозрачностью. Облако перевернуло традиционные стратегии озер данных, которые начались, когда компании хотели анализировать частично структурированные данные, такие как CSV и файлы журналов. В 2006 году родился Hadoop, который получил широкое распространение как раз в то время, когда начали распространяться разговоры о больших данных. Однако в конечном итоге Hadoop оказался медленнее и дороже, чем ожидалось, сложным в настройке, масштабировании и управлении и в первую очередь предназначенным для пакетной обработки. Чтобы решить эти проблемы, на сцену вышел Apache Spark, работающий до 100 раз быстрее для некоторых рабочих нагрузок и хорошо подходящий для анализа в реальном времени. Важно отметить, что такие компании, как Databricks, сосредоточились на запуске Spark в облаке, тогда как Hadoop в основном внедрялся локально.
За последние несколько лет облачные платформы озер данных стали более совершенными и теперь готовы к работе в прайм-тайм. Более дешевое масштабируемое объектное хранилище облачных провайдеров предоставляет платформу для масштабных проектов масштаба в несколько петабайт, которые просто не могут быть реализованы локально. Озера данных следующего поколения созданы на основе Apache Spark для поддержки S3 или хранения объектных данных, что позволяет принимать и обрабатывать полуструктурированные и неструктурированные данные. Хранилище файлов также переносится в облако, и его необходимо использовать как часть облачного озера данных, поэтому не все данные могут находиться в объектном хранилище.
Стратегия облачного озера данных — это естественная эволюция корпоративных ИТ-организаций, работающих с большими объемами данных, которые переходят в облако, поскольку она превращает облако из дешевого шкафчика для хранения данных в место, где данные можно использовать для получения новой ценности и монетизации.
Как обуздать облачное озеро данных
Несмотря на то, что облачные озера данных еще только зарождаются, включение файловых данных в ваше озеро данных является обязательным, поскольку модели машинного обучения требуют больших объемов данных для получения значимых результатов. Тем не менее, эти неструктурированные данные не стандартизированы между типами файлов:видеофайлы, аудиофайлы, данные датчиков, журналы не имеют общей структуры. И сбрасывать все эти файловые данные волей-неволей в платформу облачного озера данных — не мудрая стратегия, а беспорядок, который нужно убрать позже. Несмотря на свои обещания, озера данных сопряжены со многими рисками, начиная от высоких затрат на управление, пробелов в навыках, проблем безопасности и управления, проблем переносимости при перемещении данных между облаками и платформами хранения и давнего беспокойства о том, что озеро данных превращается в болото, когда данные становится слишком большим и запутанным для поиска и анализа.
Вот несколько соображений по переносу файловых данных в облачное озеро данных, чтобы избежать или свести к минимуму разногласия .
<ол тип="1">Облачные озера данных приобрели популярность, поскольку данные можно принимать в исходном формате без обширной предварительной обработки, необходимой для хранилищ данных. Обратной стороной является то, что озера данных превратились в болота данных, особенно для неструктурированных файловых данных, поскольку эти данные не имеют общей структуры. Анализ файловых данных становится все более важным с появлением механизмов AI/ML, которые полагаются на него. Озера облачных данных можно оптимизировать для неструктурированных данных, не лишая их привлекательности при приеме данных в собственном формате за счет автоматизации индексации, поиска, сбора и оптимизации файловых данных.
Интернет вещей
- Создайте свою облачную инфраструктуру для повышения производительности и эффективности
- Готова ли ваша ИТ-карьера к облаку?
- 5 лучших практик безопасности для резервного копирования AWS
- Как определить стратегию обработки данных для многооблачного мира
- Как подготовиться к использованию ИИ с помощью Интернета вещей
- GE представляет облачный сервис для промышленных данных, аналитики
- Готова ли ваша система к IoT?
- Что такое туманные вычисления и что они означают для Интернета вещей?
- Облако в Интернете вещей
- Преимущества использования облачных вычислений для хранения данных IoT