Будь то охота за привидениями или анализ данных:пересекайте потоки
Использование потоков данных — объединение как пакетов, так и событий в реальном времени — позволяет специалистам по данным и аналитикам решать сложные проблемы.
Отдельные потоки предоставляют данные, относящиеся к определенному измерению — цене акции, заказу клиента, метрике устройства. Аналитика и приложения могут обслуживаться одним потоком данных, но их использование ограничено и локально.
Пересечение потоков открывает более широкие возможности, наполненные историей, контекстом и соответствующими сигналами. Когда нашим героям «Охотников за привидениями» (Венкману и его банде) нужно было принять вызов (и победить мистера Стай-пуфта), они объединили свои силы — и стримы! Целое было больше, чем сумма частей.
В нашем сообществе специалисты по данным, аналитики и разработчики также призываются к действию. Использование потоков данных — объединение как пакетных, так и событий в реальном времени — позволяет решать сложные проблемы. И, как и в случае с Венкманом, иногда вам нужно, чтобы другие принесли свое снаряжение и помогли. Вот четыре жизненно важных компонента успешного пересечения ручьев:
1) Объедините данные, варианты использования и людей.
Ускорение инноваций, максимальная эффективность и обеспечение гибкости являются установленными приоритетами для сложных систем данных. Гибкая, развивающаяся программная основа реализует эти цели. Основные компоненты с открытым исходным кодом обеспечивают долгосрочную гибкость и функциональную совместимость, что имеет первостепенное значение для успеха.
Инструменты развиваются, и иногда вам нужно использовать эту новую ловушку для привидений.
2) Подготовьте свой стек данных к будущему с помощью форматов с открытым исходным кодом.
Переносимость данных уже давно является священным требованием для групп корпоративных данных. Обнесенные стеной сады создают будущие долги, а привязка к поставщику имеет невысказанные долгосрочные издержки, которые часто оплачиваются бизнесом. Хранить данные в открытых форматах.
CSV и JSON были популярны в течение многих лет, а недавно набрали популярность Avro, Protobuffs, Parquet, Orc и другие. У них есть соответствующие причины для существования, но каждый из них основан на доставке структурированных данных во множество независимых систем, не зависящих от компьютерных наук и не обращающих внимания на них.
По мере того, как объем данных увеличивался, а связанные с этим финансовые затраты и затраты на задержку при перемещении данных усугублялись, концепция открытых данных теперь включает в себя форматы в памяти, а не только те, которые сохраняются на диске. В настоящее время часто неприемлемо требовать, чтобы данные копировались, перемещались, сериализовались или каким-либо образом переводились. В частности, большое сообщество Apache Arrow извлекает выгоду из его способности передавать данные в памяти в ряд библиотек обработки данных на многих языках с минимальными издержками, чтением с нулевым копированием и быстрым доступом в любом масштабе.
Но давайте помнить, что в «Охотниках за привидениями» данные были только началом приключения.
3) Сделайте объединение данных в реальном времени и статических данных фундаментальным требованием.
Современный механизм обработки данных должен объединять данные из различных источников. Жаргон склада, озера и домика у озера, похожего на кентавра, теперь являются обычными образами. Однако растущая популярность потоков событий — не такая уж и тихая канарейка, свидетельствующая о том, что статические данные — это еще не все.
Данные меняются. Современные рабочие нагрузки находятся в постоянном движении. Данные в режиме реального времени имеют значение.
Механизмы данных и библиотеки обработки должны быть спроектированы таким образом, чтобы обеспечивать плавное переключение между рабочими нагрузками в реальном времени и статическими данными. «Непрерывный интеллект» — это модная фраза для систем, которые сочетают контекст истории с сигналами о событиях момента. Современные системы данных должны быть созданы для обработки данных в реальном времени, потоков событий и других обновлений в качестве первоклассной компетенции. Это должны быть основные сильные стороны, а не дополнения и не второстепенные мысли.
В конце концов, как мы узнали из «Охотников за привидениями», привратники и мастера ключей намного менее сильны, пока они не объединены вместе.
4) Всегда ставьте пользователя на первое место. <сильный>сильный>
Современные пользователи данных обладают разнообразными навыками, инструментами, рабочими процессами и приоритетами. Объединение команды вокруг общей платформы служит человеку и заряжает команду энергией. Системы данных, повышающие эффективность сотрудников и способствующие совместной работе, повышают ценность бизнеса.
Программное обеспечение с открытыми данными освещает путь. Интригующее сочетание сотрудничества и конкуренции в открытых проектах дает непревзойденный темп прогресса и изобретательности. Организованное для поощрения взаимодействия, развитие сообщества обещает улучшения, интеграции и обновления для пользователей. Популярные тропы становятся дорогами с твердым покрытием. Такие системы объединяют пользователей в единое целое, поддерживая взаимозависимый рабочий продукт, необходимый для любого даже умеренно сложного сценария использования.
В конце концов, один пакет протонов силен, а четыре, работая вместе, непобедимы.
Я не боюсь привидений.
Интернет вещей
- Четвертая промышленная революция
- Сохранение совместимости данных в IoT
- Интеллектуальные данные:следующий рубеж в Интернете вещей
- Что мне делать с данными ?!
- Преимущества взаимодействия на рабочем месте
- Три основных проблемы подготовки данных IoT
- Обслуживание в цифровом мире
- Демократизация Интернета вещей
- Максимизация ценности данных IoT
- Значение аналогового измерения