Успешный ИИ зависит от управления данными

Дэйв Смит

В наши дни искусственный интеллект (ИИ) повсюду, будь то в реальности или просто как разрекламированный ярлык для принятия простых решений на основе правил, и это привело к некоторым интересным проблемам, - говорит Дэвид Смит, глава отдела GDPR Technology, SAS UK и Ирландия .

Первый из них - недоверие, как отмечает новый президент Британской научной ассоциации . Профессор Джим Аль-Халили:«Существует реальная опасность публичной негативной реакции на ИИ, потенциально похожей на ту, что была у нас с ГМ [генетической модификацией] в первые дни тысячелетия». Аль-Халили подчеркивает, что для того, чтобы ИИ полностью раскрыл свой потенциал, необходимы большая прозрачность и участие общественности.

Вторая потенциальная проблема - это контроль; если модели действительно оставляют работать без мониторинга и контроля, тогда есть шанс принять неверные решения. Примером этого может быть «внезапный сбой» в 2010 году, когда фондовый рынок США упал примерно на 9% за 36 минут. Хотя регулирующие органы обвинили единственного трейдера в подделке рынка, алгоритмические торговые системы были по крайней мере частично виноваты в глубине краха.

Использование ИИ во благо

Тем не менее, ИИ имеет огромный положительный потенциал, будь то обеспечение более точной диагностики рака за счет более эффективного скрининга изображений опухолей или защита исчезающих видов путем интерпретации изображений следов животных в дикой природе. Задача состоит в том, чтобы обеспечить реализацию этих преимуществ, и именно здесь на помощь приходит структура FATE (справедливость, подотчетность, прозрачность и объяснимость), которая предназначена для обеспечения надлежащего использования ИИ. Я сосредоточусь на аспектах прозрачности, где управление данными имеет наибольшее влияние.

ИИ может быть настолько хорош, насколько хороши данные, которые его используют, а для создания и использования приложения ИИ требуется ряд этапов, связанных с конкретными данными:

Очистка качества данных, чтобы гарантировать, что моделирование не выполняется для данных, которые содержат нерелевантные или неправильные элементы.
Преобразование, объединение и улучшение данных до начала процесса моделирования.
Развертывание:модель использует модель и применяет ее к данным организации для принятия решений.

Каждый из них будет добавлять ценность, но также потенциально может изменить результаты процесса искусственного интеллекта. Например, если в процессе качества данных удаляются выбросы, это может иметь самые разные последствия. Если удаление выбросов приемлемо, результатом будет модель, очень хорошо отражающая большинство данных. С другой стороны, он может проигнорировать редкое, но критическое обстоятельство и упустить возможность принести реальную пользу.

Это было показано в открытии Дамой Джоселин Белл Бернелл пульсаров, типа вращающейся нейтронной звезды. Она просматривала мили распечатанных данных с радиотелескопа и заметила слабый сигнал в одной из каждых 100 000 точек данных. Несмотря на то, что ее начальник сказал ей, что это было искусственное вмешательство, она упорствовала и доказала их существование, успешно ища аналогичные сигналы в другом месте. Если бы выбросы были удалены, она бы не сделала этого открытия.

Путь к данным

Качество данных также должно применяться для предотвращения неловких решений. Если Банк Америки проверили правильность данных своего имени, они могли не отправлять предложение кредитной карты «Лизе - шлюха McXxxxxx» ( ее имя удалено. Ред.) в 2014 году. Они получили данные от Golden Key International Honor Society , который признает академические достижения. Неизвестный человек изменил ее имя в реестре участников.

Затем процесс продолжается преобразованиями для подготовки данных к моделированию; исходные системы, как правило, сильно нормализованы и содержат информацию, хранящуюся в нескольких таблицах, тогда как специалисты по данным предпочитают для анализа одну квадратную таблицу. Им часто потребуется добавить производные переменные, чтобы облегчить анализ. Обычно они изначально определяются специалистом по анализу данных в специальной среде подготовки данных, но для производственных целей их необходимо будет перенести в более контролируемую среду.

Влияние этого этапа преобразования данных может быть огромным. Во-первых, важно понимать, какие источники данных используются в анализе. Это может быть связано с нормативными требованиями, такими как использование личных данных, или просто для обеспечения доступа к правильному источнику данных. Во-вторых, важно понимать, было ли преобразование выполнено правильно и правильно; ошибки в реализации могут быть столь же разрушительными, как и некачественные данные.

Последний процесс обработки данных, который напрямую влияет на ИИ, - это развертывание, гарантирующее, что правильные данные вводятся в модель, и использование результатов для принятия решений, которые напрямую влияют на производительность организации. У моделей есть определенный срок хранения, в течение которого они точно предсказывают реальный мир, поэтому, если развертывание моделей в производство займет слишком много времени, они не принесут своей полной ценности.

Организованный процесс развертывания также является необходимым компонентом соблюдения требований статьи 22 GDPR. Эта статья запрещает использование аналитического профилирования личных данных, если не соблюдаются строгие условия (например, полное согласие). Контролируемое развертывание позволяет получить обзор того, какие данные использовались в процессе ИИ и какие аналитические модели были применены к данным в любой момент времени. Это очень важно для определения того, было ли нарушено регулирование.

В целом, управление данными имеет фундаментальное значение для того, чтобы ИИ смог раскрыть свой истинный потенциал. Возможность понять, как осуществляется обработка данных, является важной частью обеспечения прозрачности, одной из основных составляющих справедливого, надежного и эффективного ИИ.

Автор этого блога - Дэвид Смит, глава отдела GDPR Technology, SAS UK &Ireland.

Почему большие данные и построение аналитики никуда не денутся:часть 1 IIoT, Industry 4.0 и Fork Truck Free:Часть 2

Интернет вещей