Smart Talk, эпизод 8:Получение информации о хранилищах данных в реальном времени

Озеро данных превратилось в гибкое и многофункциональное хранилище. В этом выпуске Smart Talk Динеш Чандрасекхар, генеральный директор Stratola, и его гость, Джастин Боргман, генеральный директор и председатель Starburst, обсуждают, как расширить возможности хранилища данных, включив в него данные в реальном времени и высокопроизводительные запросы, которые могут предоставить ценную информацию практически в реальном времени — все более распространенный вариант использования. Требуются две ключевые технологии:потоки Kafka и мощный механизм запросов.

Особенно интересен их взгляд на важность программного обеспечения с открытым исходным кодом и открытых форматов, который был подтвержден Snowflake и Databricks, объявившими о поддержке Apache Iceberg. Джастин делится своими советами по сравнительному анализу решений:используйте корпоративные данные, выполняйте реальные запросы, моделируйте масштаб и, наконец, рассчитывайте затраты.

Рассматриваемые темы включают:

Kafka для потоковой передачи данных в реальном времени в хранилища данных (4:22)
Преимущества открытых форматов (5:56)
Вспомогательная роль SQL для GenAI (8:53)
Снежинка, блоки данных и айсберг (11:56)
Гибкая стратегия хранилища данных (17:21)

Гость

Джастин Боргман, генеральный директор и председатель Starburst

Джастин Боргман — эксперт в области больших данных и аналитики. До основания Starburst он был вице-президентом и генеральным директором компании Teradata (NYSE:TDC), где отвечал за портфель продуктов Hadoop компании. Джастин присоединился к Teradata в 2014 году после приобретения его компании Hadapt, соучредителем и генеральным директором которой он был. Хадапт создал «SQL on Hadoop», превратив Hadoop из файловой системы в аналитическую базу данных, доступную любому инструменту бизнес-аналитики. Он основал Starburst в 2017 году, стремясь дать аналитикам свободу анализировать разнообразные наборы данных, где бы они ни находились, без ущерба для производительности.

Хост

Динеш Чандрасекхар — технологический евангелист, идейный лидер и опытный аналитик ИТ-индустрии. Имея почти 30-летний опыт работы, Динеш работал над корпоративным программным обеспечением B2B, а также над продуктами SaaS, предоставляя и продавая сложные решения для клиентов со сложной архитектурой. Он также разработал и реализовал весьма успешные стратегии GTM для вывода на рынок нескольких быстрорастущих продуктов в различных компаниях, таких как LogicMonitor, Cloudera, Hortonworks, CA Technologies, Software AG, IBM и т. д. Он является плодовитым оратором, блоггером и программистом по выходным. Динеш имеет степень MBA Университета Санта-Клары и степень магистра компьютерных приложений Мадрасского университета. В настоящее время Динеш руководит собственной компанией Stratola, специализирующейся на консультировании по бизнес-стратегии и комплексных маркетинговых услугах.

Ресурсы

Smart Talk Episode 7:Кардинальность, контроль и стоимость наблюдаемости

Smart Talk, эпизод 6:AIOps и будущее ИТ-мониторинга

Smart Talk, эпизод 5:Дезагрегация стека наблюдаемости

Smart Talk, эпизод 4:Данные реального времени и векторные базы данных

Smart Talk, эпизод 3:Современные конвейеры данных и LLM

Smart Talk. Эпизод 2. Распространение приложений GenAI с данными в движении

Smart Talk. Эпизод 1. Экосистема данных в движении

Посмотреть карту экосистемы передачи данных здесь

Дополнительную информацию о передаче данных в RTInsights можно найти здесь.

Расшифровка

Динеш Чандрасекхар:

Здравствуйте и добро пожаловать на этот выпуск серии Smart Talk at Data and Motion Leadership. Я ваш ведущий, Динеш Чандрасекхар, главный аналитик и основатель Stratola. Наш сегодняшний гость — Джастин Боргман, генеральный директор и председатель Starburst. Джастин сделал блестящую карьеру в компаниях, занимающихся безопасностью и анализом данных, а до основания Starburst в 2017 году он основал компанию Had Adapt, которая позже была приобретена Teradata, где он несколько лет занимал должности вице-президента и генерального директора. Добро пожаловать, Джастин. Итак, давайте начнем со Starburst, верно? Я думаю, что многие люди знают Starburst как бренд, но есть и немало людей, которые хотят узнать о Starburst немного больше. Расскажите нам о Starburst, особенно о его происхождении и вашем стремлении основать компанию.

Джастин Боргман:

Да, с удовольствием. Итак, как вы упомянули во введении, я работаю в сфере анализа данных уже около 15 лет, начиная с того первого стартапа, который был приобретен Teradata. Конечно, я уверен, что ваша аудитория знает, что Teradata на протяжении многих десятилетий была лидером в области аналитики хранилищ данных. И эта модель действительно требовала перемещения всех ваших данных в собственную базу данных, которая представляла собой хранилище данных вашего предприятия. И оттуда вы можете провести быструю аналитику и понять свой бизнес. Я думаю, что мы увидели возможность перевернуть эту модель с ног на голову, особенно двумя способами. Во-первых, возможность использовать форматы открытых таблиц в озере данных, обеспечивая тем самым производительность хранилища данных. Но в озере данных сегодня иногда люди называют это архитектурой озерного дома, а также возможность обращаться к другим источникам данных и объединять таблицы, которые находятся в другой базе данных, с таблицами, находящимися в этом озере данных.

Например, у вас может быть база данных Oracle или база данных SQL Server, и вы хотите объединить таблицу в одной из этих систем с таблицей в формате файла Iceberg в озере данных. И это, по сути, то, что делают наши технологии. Это базовая технология под названием Trino. Это проект с открытым исходным кодом. Первоначально он родился из Facebook, и именно так многие крупнейшие интернет-компании, LinkedIn, Airbnb, Netflix, Apple и т. д., проводят собственную аналитику хранилищ данных. Опять же, в этой модели, где озеро данных является центральным хранилищем, где они могут получить очень низкую стоимость владения, храня данные в этих озерах данных, а также имея возможность присоединяться к другим таблицам. Так что на самом деле Starburst — это просто коммерциализация проекта с открытым исходным кодом. Мы предоставляем корпоративную версию Trino, которая имеет дополнительные функции безопасности, дополнительные разъемы, дополнительные преимущества в производительности и целый ряд других функций и возможностей.

Динеш Чандрасекхар:

Спасибо. И я определенно хочу погрузиться немного глубже в Трино, Айсберг и все такое. Я думаю, что это все отличные темы на сегодня, но могу ли я сделать шаг назад и спросить вас, если вы посмотрите на эволюцию архитектур данных, у нас были традиционные базы данных, а затем появились хранилища данных, а с бурным ростом данных и необходимостью обработки большего количества данных в реальном времени появились архитектуры озерных домов и другие. Итак, в вашем мире, когда вы смотрите на эволюцию архитектур данных, озер данных и, в вашем случае, я думаю, у вас также есть концепция под названием «Ледяной дом», как это повлияло на способность организаций эффективно обрабатывать данные в реальном времени?

Джастин Боргман:

Да, отличный вопрос. И просто чтобы пояснить вашим слушателям:концепция ледяного домика на самом деле представляет собой просто домик у озера на базе Айсберга. Таким образом, данные хранятся в формате таблицы айсберга, и поверх этого вы можете выполнять аналитику в стиле хранилища данных. Конечный результат обеспечивает действительно низкую совокупную стоимость владения, а также возможность обрабатывать данные практически в реальном времени, как вы описали. И мы думаем об этом так:мы видим огромный рост количества технологий потоковой передачи данных на рынке, таких как, например, Kafka, где клиенты все чаще используют их для потоковой передачи данных практически в реальном времени в озеро данных.

И, с нашей точки зрения, именно здесь мы хотим это поднять. Мы создали то, что называем потоковой загрузкой, где вы можете подключиться к потоку Kafka, и мы автоматически превратим это в таблицы Iceberg и сделаем их доступными для запросов почти мгновенно. Таким образом, благодаря такой архитектуре компании теперь могут гораздо быстрее получать более свежую информацию о своих данных.

Динеш Чандрасекхар:

Спасибо. Таким образом, Lakehouse определенно обещает стать очень унифицированным архитектурным подходом для пакетной аналитики и аналитики в реальном времени. Можем ли мы сказать следующее, я имею в виду, как вы видите этот архитектурный сдвиг, который сегодня трансформирует BI и традиционное принятие решений в различных отраслях? Как это изменилось?

Джастин Боргман:

Да, я вижу, что это меняет ситуацию довольно радикально. Я думаю, что одна из движущих сил и одно из преимуществ этой архитектуры так же проста, как и экономика. В конце концов, эти традиционные хранилища данных могут стать очень дорогими. На самом деле это была, пожалуй, одна из жалоб номер один за время моего пребывания в Teradata. Никто никогда не говорил, что Teradata — плохая база данных. На самом деле это отличная система баз данных. Просто это оказывается чрезвычайно дорого, и как только вы войдете, вы войдете и будете в некотором роде преданы делу.

Таким образом, это озеро данных обеспечивает большую гибкость, поскольку вы используете открытые форматы, что позволяет клиенту выбрать подходящий механизм для доступа к моим данным. Это дает вам большую гибкость, уменьшает необходимость привязки, а также позволяет хранить ваши данные в действительно недорогом обычном хранилище, которым в облачном контексте все чаще становится хранилище S3, Google GCS или Azure Data Lake. И даже в локальном мире мы видим S3-совместимое объектное хранилище от таких компаний, как Dell, IBM и т. д., где вы в принципе можете получить S3. Таким образом, это становится своего рода общим фундаментом для очень и очень экономичного хранения данных, и это часть того, что движет этой трансформацией.

Динеш Чандрасекхар:

Хорошо, давайте теперь перейдем к делу, поскольку я думаю, что это своего рода движущая сила вашего предложения, с годами оно приобрело популярность как очень мощный механизм запросов в пространстве данных в реальном времени. Как вы видите развитие его роли в современной экосистеме данных? В частности, как вы упомянули, существуют и другие технологии с открытым исходным кодом, такие как Apache Iceberg, которые также предлагают широкие возможности взаимодействия между различными системами данных и так далее. Так как же это в сочетании с некоторыми другими технологиями с открытым исходным кодом меняет современную экосистему данных?

Джастин Боргман:

Я думаю, что это действительно становится чем-то вроде Postgres для хранилищ данных. Postgres, конечно же, является широко распространенной и чрезвычайно популярной базой данных с открытым исходным кодом. Это традиционный одиночный узел R-D-B-M-S. Trino — это что-то вроде аналитического аналога хранилища данных MPP с массовой параллельной обработкой. И поэтому для ваших больших данных, для вашей деятельности в стиле хранилища данных, это теперь становится де-факто выбором с открытым исходным кодом.

Сейчас иногда люди спрашивают, а что насчет Spark по сравнению с ним? Spark — отличный процессор общего назначения, но не оптимизированный для SQL-аналитики. И я думаю, что к вашему предыдущему высказыванию о бизнес-аналитике и принятии решений, SQL по-прежнему остается языком таких типов использования, будь то подключение инструмента бизнес-аналитики, запуск отчетов или даже создание приложений, управляемых данными, SQL по-прежнему остается действительно важным языком для взаимодействия, а Trino является движком номер один для этого на сегодняшнем рынке.

Когда вы объединяете его с чем-то вроде Iceberg, как вы сказали, у вас по сути получается полноценное хранилище данных. У вас есть часть механизма запросов, у вас есть часть хранилища, и теперь у вас есть полноценное открытое хранилище данных. Они также могут работать где угодно, могут работать локально или в облаке. Таким образом, этот стек дает вам большую гибкость.

Динеш Чандрасекхар:

Могу ли я задать вам небольшой ответный вопрос? Поскольку вы упомянули SQL как своего рода средство для многих хранилищ данных в наши дни, и я считаю, что за последние 30-40 лет ничто не могло поколебать это наверняка, но с появлением технологий искусственного интеллекта и обработки естественного языка повсюду люди теперь могут говорить о демократизации данных, когда вы теперь распространяете их даже среди бизнес-аналитиков, которые, вероятно, не имеют равных знаний, но могут использовать естественный язык, чтобы сказать:«Принесите мне последние три месяца продаж в этом конкретном регионе и и так далее.

И внутри, очевидно, преобразует это в SQL, а затем запрашивает движок или что-то в этом роде, верно? Видите ли вы в этом сдвиг? Будет ли SQL процветать и выживать, или в будущем произойдет сдвиг в том, как мы смотрим на данные запросов?

Джастин Боргман:

Это действительно отличный вопрос, и я думаю, что вы что-то поняли. Я думаю, что постепенно, со временем, я думаю, что генеративный ИИ как интерфейс станет очень популярным, потому что, с вашей точки зрения, он как бы усложняет его использование кем-либо, откровенно говоря. Так что теперь это больше похоже на опыт Google со всеми данными предприятия, и это очень интересно. Фактически, мы включили раннюю версию этого в наш собственный продукт, и я думаю, что все это сделают, и это станет настольными ставками.

Однако я думаю, что за кулисами эти технологии на самом деле будут просто конвертировать этот естественный язык в синтаксис SQL для фактического выполнения движком. Поэтому я думаю, что язык по-прежнему будет важен, но он может стать скорее деталью реализации интерфейса в стиле генеративного искусственного интеллекта на естественном языке. Я думаю, ты в точку. Это чем-то напоминает мне времена, когда были изобретены калькуляторы или даже графические калькуляторы:внезапно нам не нужно было знать все формулы и то, как именно делить элементы, потому что об этом позаботился наш калькулятор. Я думаю, именно это и собирается сделать для нас генеративный искусственный интеллект.

Динеш Чандрасекхар:

Более легкий доступ к данным, определенно наверняка. Я думаю, что именно туда мы и направляемся. Так что определенно захватывающее место. Итак, мы поговорили о Трино. Могу я переключиться и еще раз спросить тебя об Айсберге? Это становится очень, очень популярным. Я вижу, что крупные гиганты отрасли начинают воспринимать айсберг как вполне естественный способ сказать, что мы совместимы, поддерживаем его и так далее. Поскольку организации все чаще применяют аналитику в реальном времени, какова роль айсберга в обеспечении более эффективного и масштабируемого управления данными? Что вы об этом думаете?

Джастин Боргман:

Да, я думаю, это большое дело. Я думаю, что это самая большая история 2024 года, не считая ИИ. И причина, по которой я говорю это, заключается в том, что этот формат существует уже несколько лет, но на самом деле в этом году рынок вроде как урегулировал дебаты о том, какой формат победит. Был короткий период, когда существовало три популярных конкурирующих формата, и возник вопрос, кто победит?

Мы всегда делали ставку на Iceberg, я бы сказал, что мы предсказывали, что пойдет по этому пути, но я думаю, что этим летом рынок как бы согласился, когда и Snowflake, и Databricks объявили о своих собственных намерениях поддерживать его, и это просто убило дебаты о том, что Iceberg является стандартом де-факто, и что он дает клиентам, клиенты являются настоящими победителями в этом, безусловно. И это потому, что теперь они могут хранить данные в формате, которым они владеют, который они контролируют, который является для них переносимым, а не в руках какого-то поставщика баз данных, который будет держать их заложниками на десятилетия вперед.

Они владеют этим, и это означает, что они могут натравливать двигатели друг на друга. Они могут сказать:«Хорошо, Starburst выполнит эту рабочую нагрузку, которая обеспечит мне наилучшую экономическую эффективность». Возможно, Snowflake лучше подходит для этой рабочей нагрузки. Возможно, Databricks лучше подходит для этой рабочей нагрузки, и у клиента есть выбор между этими движками, и это потрясающе. Когда двигатели конкурируют, вы выигрываете как клиент, и я думаю, именно это предлагает Iceberg.

Динеш Чандрасекхар:

Но это было отличное резюме. Я думаю, что это прояснило важность перспективы айсберга, поскольку компании стандартизируют модель, в которой, я думаю, все более совместимы друг с другом, и я думаю, что это приносит пользу клиенту, как вы сказали, без необходимости быть привязанным к конкретному поставщику, но позволяет им быть немного более открытыми и гибкими. Это, безусловно, отличный момент.

Джастин Боргман:

Именно.

Динеш Чандрасекхар:

Джастин, почему бы нам не поговорить здесь о примере клиента, потому что Trino и Iceberg сегодня в центре разговора, расскажите нам, может быть, о примере клиента, где вы видели, как это практически применяется, и какие преимущества они увидели, внедрив Trino и Iceberg?

Джастин Боргман:

С удовольствием. Есть ряд примеров, как от ведущих интернет-компаний, таких как DoorDash, так и от более традиционных предприятий, таких как Comcast, которые существуют уже давно и в обоих случаях отходят от того, что я бы назвал традиционными платформами хранилищ данных, перенося рабочие нагрузки на традиционные платформы хранилищ данных.

В случае с Comcast — очень традиционное локальное хранилище данных. В случае с DoorDash я бы назвал его очень традиционным облачным хранилищем данных. И в любом случае, в конечном итоге они пытаются повысить совокупную стоимость владения своей аналитикой SQL и обеспечить гибкость для работы с новейшими передовыми технологиями, которые могут взаимодействовать с этим общим форматом.

Опять же, к нашему предыдущему пункту:я думаю, что они также пытаются сделать (и это относится к теме ИИ) — они закладывают основы для создания своей архитектуры данных, где теперь они могут иметь легкий доступ к данным, которые им нужны для обучения их собственных моделей или выполнения рабочих процессов RAG, в конечном итоге для поддержки своих собственных амбиций в области ИИ. И я думаю, что многие предприятия только начинают понимать, что может сделать для меня ИИ? Как это может дать мне конкурентное преимущество?

И пока они это выясняют, я думаю, что им всем очень ясно одно:их собственные данные будут иметь решающее значение для предоставления им конкурентного преимущества. Поэтому создание инфраструктуры данных, которая предоставит вам доступ к тому, что вам нужно, с низкими затратами и высокой производительностью, является ключевым шагом в этом процессе.

Динеш Чандрасекхар:

Таким образом, в качестве преимущества, могу ли я дважды щелкнуть по нему и сказать или спросить вас, в частности, о данных в реальном времени, это часто создает проблемы, такие как изменение схемы в эволюции схемы по мере изменения источников, необходимость адаптации цели и т. д., а также управление версиями данных. Как Apache Iceberg помогает решить некоторые из этих проблем на таких современных платформах данных?

Джастин Боргман:

Итак, существует концепция управления версиями, путешествий во времени и возможности увидеть, как данные развивались внутри нашей платформы. Мы также добавили происхождение данных, показатели качества данных, которые мы можем собирать и представлять нашим пользователям, чтобы вы могли действительно понять, откуда взялись эти данные, как они развивались, как они повторялись, и в конечном итоге снова предоставили эту видимость конечному пользователю.

Динеш Чандрасекхар:

Хорошо. Затем, говоря о Trino, вы говорили о том, как можно объединить различные источники данных, выполнить совместные запросы и все такое. Сдвигается ли архитектура в сторону централизованного источника данных или хранилища данных или она сохраняет их там, где они есть, но обеспечивает возможность их объединения и прозрачности для потребителей? Какую архитектуру мы здесь рассматриваем?

Джастин Боргман:

Да, отличный вопрос. Есть элементы и того, и другого, и я думаю, именно поэтому нам всегда было сложно даже сформулировать наше собственное ценностное предложение, потому что люди привыкли к одной модели и одному образу мышления, который централизует все в традиционном хранилище данных, или у вас просто нет доступа к нему. И я думаю, что то, как мы видим развитие мира, заключается в том, что будет центральное хранилище, которое, несомненно, станет озером данных, в котором будет храниться большая часть данных или как можно больше данных, потому что вы получите экономические выгоды, вы получите преимущества в производительности, храня как можно больше данных в форматах айсберга в своем озере. Поэтому мы считаем, что это отличная стратегия для большого количества ваших данных, но мы также думаем, что всегда будут случаи, когда вам захочется обратиться к какому-то другому источнику данных.

Возможно, это исследовательская аналитика. У меня есть только гипотеза, которую я хочу протестировать, и я думаю, что это может иметь большое значение для нашего бизнеса, но я не хочу разрабатывать все конвейеры ETL и проходить через весь этот процесс только ради идеи, просто из-за догадки, которая у меня есть. Что ж, это отличный вариант использования, когда возможность присоединиться к таблице, которая находится где-то в другом месте, с тем, что у вас есть, меняет правила игры. На самом деле это может позволить вам подтвердить эту гипотезу за считанные минуты, а не недели, чтобы заставить команды переместить данные так, как вам нужно. И поэтому я думаю, что и то, и другое ценно, но мы думаем об этом как о большинстве в озере, а затем мы думаем об этом, выходя за пределы этого озера.

Динеш Чандрасекхар:

Итак, если я представляю стороннее предприятие и, скажем, ищу современную платформу данных, какие критические соображения по производительности я хотел бы иметь в своем контрольном списке, когда смотрю на Trino по сравнению с множеством других альтернатив? Тогда моим приоритетом является, скажем, обработка запросов к данным в реальном времени, обеспечение низкой задержки и тому подобное. Итак, это мои требования. Какие соображения я хотел бы включить в свой контрольный список?

Джастин Боргман:

Да. Итак, два главных совета, которые я бы дал:во-первых, используйте реальные запросы, которые вы действительно используете. Я думаю, что люди очень часто используют отраслевые тесты, и это нормально, возможно, это очень поверхностный шаг, но он не будет отражать ваши рабочие нагрузки. Этого просто никогда не бывает. У каждой компании есть свои вещи, которые они пытаются сделать. Поэтому всегда лучше попытаться смоделировать ваше конечное состояние как можно лучше.

А это означает использование собственных запросов и собственных данных при составлении собственного доказательства концепции и проведении сравнительного анализа. Просто никогда не следует доверять исключительно тестам других поставщиков. Даже наши собственные. Они у нас есть, вы можете на них посмотреть, но вам действительно следует проверить это самостоятельно, используя свои собственные запросы и собственные данные.

Второе, что я хотел бы сказать, это также убедиться, что вы моделируете масштаб, а масштаб важен, потому что именно здесь мы, по крайней мере, находим некоторые из наших собственных возможностей с клиентами, скажем, заменить поставщика, которого они приобрели, когда в процессе POC они думали, что поставщик удовлетворил их потребности, но когда они достигли реального масштаба производства, он просто не смог с этим справиться.

И именно здесь, я думаю, есть большая польза от использования технологий с открытым исходным кодом, таких как Trino, которые были проверены в самых больших масштабах, которые только можно себе представить, например, Apple использует их в безумных масштабах, очевидно, в безумных масштабах Facebook. Так что эта штука может сработать. В таком масштабе это работает. Это должно дать вам некоторое спокойствие. Но даже несмотря на это, я бы посоветовал смоделировать это самостоятельно в своем собственном процессе сравнительного анализа, чтобы действительно убедиться, что эти различные технологии будут соответствовать потребностям, которые у вас есть в производстве. Прохладный.

И, возможно, третье, что я добавлю, — это стоимость. Стоимость тоже очень важна, не так ли? Стоимость и производительность на самом деле — две стороны одной медали. И вам тоже нужно учитывать это при сравнительном анализе, верно? Вы не просто выберете самый быстрый. Вы хотите выбрать лучшее соотношение цены и качества. И поэтому это тоже важная часть компонента.

Динеш Чандрасекхар:

Я согласен. Я думаю, что это важный пункт контрольного списка для многих людей, которые наверняка оценивают существующие решения. Так что, возможно, давайте подведем итоги с точки зрения тенденций. Я просто хочу спросить вас, сегодня много чего происходит в сфере данных, верно? Итак, есть поставщики хранилищ данных, поставщики озер, поставщики озер данных и несколько альтернатив:базы данных аналитики в реальном времени и тому подобное.

Выбор определенно широк и сбивает с толку покупателя. Итак, с точки зрения новых тенденций, видите ли вы какую-то конвергенцию, когда дело доходит до обработки данных в реальном времени, архитектур озер данных, о которых мы только что говорили, и экосистемы с открытым исходным кодом в целом? Наблюдаете ли вы какое-либо сближение, которое сделает ситуацию более понятной для покупателя в ближайшем будущем?

Джастин Боргман:

Да. Я думаю, мы начинаем видеть, как очень часто появляются очень популярные шаблоны. Эти шаблоны возникают в Интернете, в гиперскейлерах, а затем со временем переходят на предприятия. И я думаю, что сейчас мы находимся на том этапе, когда он проникает на предприятия. И закономерности, которые я вижу, заключаются в использовании таких технологий, как Kafka, для потоковой передачи. И, конечно же, у вас есть несколько вариантов. Вы можете использовать Confluent, вы можете использовать версию Amazon. У вас есть выбор на всех этих платформах с открытым исходным кодом, и это здорово. Я думаю, что Iceberg, в отношении формата хранения ваших данных, мне кажется самым безопасным выбором, который вы могли бы сделать. И снова, что касается двигателя, поиск подходящего двигателя для правильной работы. Я думаю, что если бы речь шла о SQL Analytics, мы бы сказали, что Trino и Starburst — лучший выбор, но вы должны доказать это себе.

Если вы обучаете модель машинного обучения, вы, вероятно, будете использовать для этого Spark. И это закономерности, которые мы видим. Я думаю, что все четыре из этих технологий будут невероятно популярны в архитектурах данных с открытым исходным кодом в ближайшие годы. И опять же, открытый исходный код дает вам такую гибкость, позволяющую смешивать и сопоставлять компоненты с течением времени, что позволит вашей архитектуре выдержать испытание временем. И я думаю, что на самом деле вам нужно не создавать технический долг, который вам будет очень трудно заменить через 10 лет. И открытый исходный код дает вам такую гибкость.

Динеш Чандрасекхар:

Мне нравится этот момент. Спасибо. Я думаю, нам следует завершить это замечательным замечанием. Джастин, большое спасибо, что присоединились к нам сегодня. Я думаю, это был отличный разговор, позволяющий больше узнать о Trino и Iceberg и о том, как Starbust предлагает эту фантастическую платформу, сочетающую в себе лучшее из обоих миров. Большое вам спасибо и ценим, что вы присоединились к нам.

Джастин Боргман:

Спасибо, Динеш. Мне было очень приятно.

Использование искусственного интеллекта и графов знаний для трансформации строительной отрасли Революция в отрасли:будущее интеграции ИТ/ОТ в производстве

Интернет вещей