Промышленное производство
Промышленный Интернет вещей | Промышленные материалы | Техническое обслуживание и ремонт оборудования | Промышленное программирование |
home  MfgRobots >> Промышленное производство >  >> Manufacturing Technology >> Промышленные технологии

Microsoft создает крупнейшую модель создания языка с 17 миллиардами параметров

Крупномасштабные языковые модели глубокого обучения (такие как GPT-2 и BERT) с миллиардами параметров, обученными для всего текста, доступного в Интернете, улучшили различные задачи обработки естественного языка (NLP), такие как понимание документов, диалоговые агенты и вопросы. отвечая.

Было замечено, что более крупные модели с более разнообразными и полными данными предварительного обучения работают лучше, даже с меньшим количеством обучающих выборок. Таким образом, более эффективно обучать массивную централизованную модель и делиться ее функциями для разных задач, а не обучать новую модель для каждой задачи в отдельности.

Следуя этой тенденции, исследователи Microsoft представили Turing Natural Language Generation (T-NLG), крупнейшую в мире модель с 17 миллиардами параметров. Он превосходит существующие современные модели в тестах моделирования на разных языках.

T-NLG может генерировать слова для завершения незаконченных предложений, резюме входных документов и прямых ответов на вопросы. В отличие от других систем НЛП, которые полагаются на извлечение содержимого из документов для создания резюме или ответов на вопросы, новая генеративная модель реагирует так же точно, прямо и плавно, как и люди, в различных ситуациях.

Вместо копирования отрывка T-NLG напрямую отвечает на вопрос полным предложением.

Обучение T-NLG

Поскольку один графический процессор (даже с 32 ГБ памяти) не может обрабатывать миллиарды параметров, вам необходимо распараллелить саму модель или разбить ее на части, чтобы обучить ее нескольким графическим процессорам.

В этом исследовании исследователи использовали аппаратную настройку NVIDIA DGX-2 (чтобы ускорить обмен данными между графическими процессорами) и тензорное нарезание (чтобы разбить модель на 4 графических процессора NVIDIA V100). Используя библиотеку DeepSpeed ​​и оптимизатор Zero, они смогли очень эффективно обучить T-NLG с меньшим количеством графических процессоров.

Производительность по сравнению со стандартными задачами

Затем они сравнили производительность предварительно обученного T-NLG с другими мощными языковыми моделями-преобразователями по двум стандартным задачам:точность предсказания следующего слова LAMBADA (чем выше, тем лучше) и недоумение Wikitext-103 (чем ниже, тем лучше). В обоих случаях T-NLG показала лучшие результаты.

Ссылка:Microsoft | GitHub

Эффективность при ответе на вопрос

Чтобы проверить такие качества, как грамматическая и фактическая правильность, исследователи обратились за помощью к аннотаторам. Они сравнили новую модель с моделью LSTM (аналогичной CopyNet).

Эффективность активного суммирования

T-NLG может писать похожие на людей абстрактные резюме для различных текстовых документов (включая документы Word, сообщения в блогах, электронные письма, презентации PowerPoint и даже таблицы Excel), но насколько это хорошо по сравнению с другими существующими моделями NLP.

Чтобы сделать новую модель более универсальной, чтобы она могла резюмировать все виды текста, исследователи обучили ее на общедоступных наборах данных реферирования. Затем они сравнили его с другой большой языковой моделью на основе преобразователя, названной PEGASUS, и ее предыдущей версией. На этот раз они представили оценку ROUGE - набор показателей, используемых для оценки автоматического суммирования при обработке естественного языка.

Приложения

Microsoft добилась прорыва в разговорном искусственном интеллекте. В ближайшие годы они интегрируют T-NLG в пакет Microsoft Office, что не только сэкономит время пользователей за счет обобщения электронных писем и документов, но также предложит помощь в написании и ответит на вопросы, которые читатели могут задать о содержании.

Прочтите:Microsoft создает полностью автоматизированное хранилище данных ДНК

Кроме того, результаты открывают путь для более точных и беглых цифровых помощников и чат-ботов, помогающих предприятиям в управлении продажами и взаимоотношениями с клиентами.


Промышленные технологии

  1. Что мне делать с данными ?!
  2. Microsoft делает новый прорыв в области разговорного ИИ
  3. Начать с (Кибербезопасности) Конца в уме
  4. Цифровые сетевые платформы:модель пятиэтапной зрелости
  5. Оптимизация цепочки поставок в сфере здравоохранения с помощью WMS
  6. Защита глобальной цепочки поставок данными без границ
  7. Управление нехваткой ресурсов с помощью цифровых систем обслуживания
  8. Обеспечение будущего бизнеса с помощью цифровых технологий покупателя
  9. Как получить максимальную отдачу от инвестиций в генерацию лидов?
  10. SSI Schaffer предоставляет Coop «одно из крупнейших решений по автоматизации в мире».