Подготовка файловых данных для облачных озер данных

Стратегия облачного озера данных — это естественная эволюция корпоративных ИТ-организаций, работающих с большими объемами данных, которые переходят в облако, поскольку она превращает облако из дешевого шкафчика для хранения данных в место, где данные можно использовать для получения новой ценности и монетизации.

Если 2020 и 2021 годы были годами быстрого ускорения облачных вычислений, то 2022 год станет годом, когда предприятия начнут серьезно относиться к переносу неструктурированных файловых данных в облачные озера данных. Есть несколько причин этой тенденции. Во-первых, организациям приходится иметь дело с петабайтами неструктурированных данных, которые сегодня составляют не менее 80% из 64 зетабайт данных (и их количество растет) в хранилищах по всему миру. В основном это файловые данные — от медицинских изображений до потокового видео, данные датчиков электромобилей и продуктов Интернета вещей, а также документы, которые люди используют во всех сферах для совместной работы и ведения бизнеса.

Во-вторых, файловые данные становятся неуправляемыми, их хранение обходится дорого, и ИТ-директора знают, что они сидят на потенциальном золотом руднике идей, если бы только они могли определить, как поместить их в нужные места для анализа. Наконец, основные облачные платформы вкладывают значительные средства в инструменты анализа данных, машинного обучения и искусственного интеллекта, а также в недорогие уровни хранения объектов для поддержки проектов озера данных.

См. также: Озера данных, данные временных рядов и промышленная аналитика

Созревание озер данных в облаке

Согласно недавнему исследованию, которое мы провели, создание озер данных является одной из главных целей, которым ИТ-менеджеры уделяют первоочередное внимание, наряду с безопасностью, управлением затратами и прозрачностью. Облако перевернуло традиционные стратегии озер данных, которые начались, когда компании хотели анализировать частично структурированные данные, такие как CSV и файлы журналов. В 2006 году родился Hadoop, который получил широкое распространение как раз в то время, когда начали распространяться разговоры о больших данных. Однако в конечном итоге Hadoop оказался медленнее и дороже, чем ожидалось, сложным в настройке, масштабировании и управлении и в первую очередь предназначенным для пакетной обработки. Чтобы решить эти проблемы, на сцену вышел Apache Spark, работающий до 100 раз быстрее для некоторых рабочих нагрузок и хорошо подходящий для анализа в реальном времени. Важно отметить, что такие компании, как Databricks, сосредоточились на запуске Spark в облаке, тогда как Hadoop в основном внедрялся локально.

За последние несколько лет облачные платформы озер данных стали более совершенными и теперь готовы к работе в прайм-тайм. Более дешевое масштабируемое объектное хранилище облачных провайдеров предоставляет платформу для масштабных проектов масштаба в несколько петабайт, которые просто не могут быть реализованы локально. Озера данных следующего поколения созданы на основе Apache Spark для поддержки S3 или хранения объектных данных, что позволяет принимать и обрабатывать полуструктурированные и неструктурированные данные. Хранилище файлов также переносится в облако, и его необходимо использовать как часть облачного озера данных, поэтому не все данные могут находиться в объектном хранилище.

Как обуздать облачное озеро данных

Несмотря на то, что облачные озера данных еще только зарождаются, включение файловых данных в ваше озеро данных является обязательным, поскольку модели машинного обучения требуют больших объемов данных для получения значимых результатов. Тем не менее, эти неструктурированные данные не стандартизированы между типами файлов:видеофайлы, аудиофайлы, данные датчиков, журналы не имеют общей структуры. И сбрасывать все эти файловые данные волей-неволей в платформу облачного озера данных — не мудрая стратегия, а беспорядок, который нужно убрать позже. Несмотря на свои обещания, озера данных сопряжены со многими рисками, начиная от высоких затрат на управление, пробелов в навыках, проблем безопасности и управления, проблем переносимости при перемещении данных между облаками и платформами хранения и давнего беспокойства о том, что озеро данных превращается в болото, когда данные становится слишком большим и запутанным для поиска и анализа.

Вот несколько соображений по переносу файловых данных в облачное озеро данных, чтобы избежать или свести к минимуму разногласия .

<ол тип="1">

Оптимизируйте озеро данных. Прежде чем любые данные можно будет проанализировать, их необходимо очистить, нормализовать и классифицировать, что может быть очень ручным процессом, способствующим перерасходу средств и замедлению времени окупаемости. Это всегда было проблемой для инициативы хранилища данных, и то же самое относится к озерам данных и хранилищам данных. Озера данных привлекательны тем, что они могут принимать данные в исходном формате; необходимость оптимизации перед вводом данных в озеро разрушает эту простоту использования. Как можно автоматически оптимизировать данные файла, не требуя изменения поведения пользователя? Ключом к оптимизации файловых данных являются метаданные:информация о типах файлов, датах создания и последнего доступа, владельцах, проектах и местоположении. Возможность автоматически индексировать файлы и помечать их тегами в свойствах метаданных позволит избежать проблем с болотом данных и упростить поиск и сегментацию в дальнейшем, а не просто оставлять озера данных неуправляемыми.

Используйте индексацию метаданных, чтобы найти точные наборы данных для конкретных нужд. Инструменты, которые могут индексировать файлы и искать метаданные в хранилище (включая локальные, периферийные и облачные расположения), могут сузить миллиарды файлов до нескольких тысяч, чтобы вы отправляли в облако только те файлы, которые хотите проанализировать.

Пометьте данные по мере их поступления, чтобы улучшить поиск и удобство использования . Как только вы найдете нужные файлы, вы можете использовать систему машинного обучения для дальнейшего уточнения поиска с помощью большего количества тегов. Этот процесс должен быть непрерывным и автоматизированным, чтобы со временем была разработана дополнительная структура, и в вашем озере данных появился более удобный поиск, а также более высокое качество в целом.

Приспосабливайтесь к краю. По мере роста периферийных вычислений из-за новых вариантов использования данных датчиков потоковая передача данных с периферии станет неприемлемой. Как можно обрабатывать больше данных на периферии и использовать только то, что вам нужно, в облачном озере данных? Первичная предварительная обработка будет становиться все более важной по мере роста объемов периферийных данных.

Создавайте таксономии по отраслям. Стандартной номенклатуры тегов для каждой отрасли не существует. Наличие некоторых общих классификаций тегов по секторам облегчит поиск и извлечение данных, особенно в средах совместной работы, таких как исследования и науки о жизни.

Обеспечение мобильности данных. Чтобы быть по-настоящему мобильными, данные должны иметь возможность находиться в разных системах в гибридных облачных средах, а также иметь естественный доступ к службам в этих средах. Разблокировка данных из проприетарных систем хранения возвращает контроль ИТ-специалистам и устраняет расходы и проблемы при перемещении данных с одной платформы на другую. Способ использования и доступа к данным, а также их ценность со временем меняются. Защищая свои данные от будущего, вы можете адаптироваться к изменениям и новым требованиям. Здесь могут помочь независимые решения для мобильности данных и управления ими.

Создайте правильную культуру. Согласно исследованию New Vantage Partners, проведенному в 2021 году, ведущие ИТ-организации продолжают считать культуру — людей, процессы, организацию, управление изменениями — самым большим препятствием на пути к тому, чтобы стать организациями, управляемыми данными. Культура, основанная на данных, должна охватывать не только аналитиков и бизнес-подразделения, но и группы ИТ-инфраструктуры. ИТ-руководители должны будут сыграть свою роль, помогая специалистам по хранению данных, серверам и сетям переориентировать свои обязанности и повседневные задачи на структуру принятия решений, ориентированную на данные. Инструменты и процессы должны быть кросс-функциональными, позволяющими получить целостное представление о ресурсах данных организации и совместно разрабатывать стратегии управления этими активами в интересах организации.

Облачные озера данных приобрели популярность, поскольку данные можно принимать в исходном формате без обширной предварительной обработки, необходимой для хранилищ данных. Обратной стороной является то, что озера данных превратились в болота данных, особенно для неструктурированных файловых данных, поскольку эти данные не имеют общей структуры. Анализ файловых данных становится все более важным с появлением механизмов AI/ML, которые полагаются на него. Озера облачных данных можно оптимизировать для неструктурированных данных, не лишая их привлекательности при приеме данных в собственном формате за счет автоматизации индексации, поиска, сбора и оптимизации файловых данных.

Из сковороды на подключенную кухню 4 тенденции промышленной метавселенной:гипербола или революция?

Интернет вещей