Microsoft делает новый прорыв в области разговорного ИИ
- Microsoft создает новые рекорды в области разговорного искусственного интеллекта.
- Они разработали расширенную версию многозадачной глубокой нейронной сети для изучения текстовых представлений в различных задачах понимания естественного языка.
Надежные и универсальные языковые представления важны для получения достойных результатов при решении различных задач обработки естественного языка (NLP). Ансамблевое обучение - один из наиболее эффективных подходов к расширению обобщения модели. До сих пор разработчики использовали его для получения современных результатов в различных задачах понимания естественного языка (NLU), начиная от понимания прочитанного машинным языком и заканчивая ответами на вопросы.
Однако такие ансамблевые модели содержат сотни моделей глубоких нейронных сетей (DNN) и довольно дороги в реализации. Предварительно обученные модели, такие как GPT и BERT, также очень дороги в развертывании. GPT, например, состоит из 48 уровней трансформатора с 1,5 миллиардами параметров, а BERT состоит из 24 слоев трансформатора с 344 миллионами параметров.
В 2019 году Microsoft представила собственный алгоритм обработки естественного языка (NLP), названный Multi-Task DNN. Теперь они обновили этот алгоритм, чтобы добиться впечатляющих результатов.
Расширение дистилляции знаний
Исследовательская группа объединила несколько ансамблевых моделей в одну многозадачную DNN, используя дистилляцию знаний. Они использовали ансамблевую модель [в автономном режиме] для создания мягких целей для каждой отдельной задачи в наборе обучающих данных. По сравнению с жесткими целями они предлагают больше полезных данных для каждой обучающей выборки.
Возьмем, к примеру, предложение:«Я хорошо поболтал с Джоном вчера вечером», тональность в этой фразе вряд ли будет негативной. Однако предложение «У нас вчера вечером был интригующий разговор» может быть как отрицательным, так и положительным, в зависимости от контекста.
Ссылка:arXiv:1904.09482 | Исследовательский блог Microsoft
Исследователи использовали как правильные цели, так и мягкие цели в различных задачах для обучения единой MT-DNN. Они использовали среду глубокого обучения PyTorch с ускорением cuDNN для обучения и тестирования новой модели на графических процессорах NVIDIA Tesla V100.
Результаты
Они сравнили дистиллированный MT-DNN с нормальным MT-DNN и BERT. Результаты показывают, что дистиллированный MT-DNN значительно превосходит обе модели с точки зрения общего балла по тесту General Language Understanding Evaluation (GLUE), который используется для тестирования производительности системы по широкому кругу лингвистических явлений.
Оценка теста GLUE
Тест состоит из 9 задач NLU, включая схожесть текста, текстовое следствие, анализ тональности и ответы на вопросы. Данные содержат несколько сотен пар предложений, взятых из разных источников, таких как академический и энциклопедический текст, новости и социальные сети.
Все эксперименты, проведенные в рамках этого исследования, ясно показывают, что языковое представление, изученное с помощью дистиллированной MT-DNN, является более универсальным и надежным, чем обычные MT-DNN и BERT.
Читайте:Bosque:новый язык программирования Microsoft без циклов
В ближайшие годы исследователи попытаются найти более эффективные способы сочетания жестко правильных и мягких целей для многозадачного обучения. И вместо того, чтобы сжимать сложную модель до более простой, они будут изучать более эффективные способы использования извлечения знаний для повышения производительности модели независимо от ее сложности.
Промышленные технологии
- Появление нового вида ИТ:гибрид ИТ / ОТ
- Офис закрыт? Microsoft объявляет о создании нового исследовательского инкубатора искусственного интеллекта
- GLTR:новый метод определения языка, созданного компьютером
- Microsoft создает крупнейшую модель создания языка с 17 миллиардами параметров
- Bosque:новый язык программирования Microsoft без циклов
- 9 новых языков программирования, которые нужно выучить в 2021 году
- В глобальной логистике оркестровка - это новая наглядность
- Влияние нового покупательского поведения в электронной коммерции
- 5G, IoT и новые проблемы цепочки поставок
- Новый ландшафт электронной коммерции меняет определение успешного маркетинга