Microsoft создает крупнейшую модель создания языка с 17 миллиардами параметров
- Microsoft представляет модель Turing Natural Language Generation, крупнейшую в мире модель с 17 миллиардами параметров.
- Он генерирует абстрактные резюме текстовых документов, прямые ответы на вопросы и слова для завершения предложений.
- Модель реагирует так же точно, прямо и плавно, как люди, в различных ситуациях.
Крупномасштабные языковые модели глубокого обучения (такие как GPT-2 и BERT) с миллиардами параметров, обученными для всего текста, доступного в Интернете, улучшили различные задачи обработки естественного языка (NLP), такие как понимание документов, диалоговые агенты и вопросы. отвечая.
Было замечено, что более крупные модели с более разнообразными и полными данными предварительного обучения работают лучше, даже с меньшим количеством обучающих выборок. Таким образом, более эффективно обучать массивную централизованную модель и делиться ее функциями для разных задач, а не обучать новую модель для каждой задачи в отдельности.
Следуя этой тенденции, исследователи Microsoft представили Turing Natural Language Generation (T-NLG), крупнейшую в мире модель с 17 миллиардами параметров. Он превосходит существующие современные модели в тестах моделирования на разных языках.
T-NLG может генерировать слова для завершения незаконченных предложений, резюме входных документов и прямых ответов на вопросы. В отличие от других систем НЛП, которые полагаются на извлечение содержимого из документов для создания резюме или ответов на вопросы, новая генеративная модель реагирует так же точно, прямо и плавно, как и люди, в различных ситуациях.
Вместо копирования отрывка T-NLG напрямую отвечает на вопрос полным предложением.
Обучение T-NLG
Поскольку один графический процессор (даже с 32 ГБ памяти) не может обрабатывать миллиарды параметров, вам необходимо распараллелить саму модель или разбить ее на части, чтобы обучить ее нескольким графическим процессорам.
В этом исследовании исследователи использовали аппаратную настройку NVIDIA DGX-2 (чтобы ускорить обмен данными между графическими процессорами) и тензорное нарезание (чтобы разбить модель на 4 графических процессора NVIDIA V100). Используя библиотеку DeepSpeed и оптимизатор Zero, они смогли очень эффективно обучить T-NLG с меньшим количеством графических процессоров.
Производительность по сравнению со стандартными задачами
Затем они сравнили производительность предварительно обученного T-NLG с другими мощными языковыми моделями-преобразователями по двум стандартным задачам:точность предсказания следующего слова LAMBADA (чем выше, тем лучше) и недоумение Wikitext-103 (чем ниже, тем лучше). В обоих случаях T-NLG показала лучшие результаты.
Ссылка:Microsoft | GitHub
Эффективность при ответе на вопрос
Чтобы проверить такие качества, как грамматическая и фактическая правильность, исследователи обратились за помощью к аннотаторам. Они сравнили новую модель с моделью LSTM (аналогичной CopyNet).
Эффективность активного суммирования
T-NLG может писать похожие на людей абстрактные резюме для различных текстовых документов (включая документы Word, сообщения в блогах, электронные письма, презентации PowerPoint и даже таблицы Excel), но насколько это хорошо по сравнению с другими существующими моделями NLP.
Чтобы сделать новую модель более универсальной, чтобы она могла резюмировать все виды текста, исследователи обучили ее на общедоступных наборах данных реферирования. Затем они сравнили его с другой большой языковой моделью на основе преобразователя, названной PEGASUS, и ее предыдущей версией. На этот раз они представили оценку ROUGE - набор показателей, используемых для оценки автоматического суммирования при обработке естественного языка.
Приложения
Microsoft добилась прорыва в разговорном искусственном интеллекте. В ближайшие годы они интегрируют T-NLG в пакет Microsoft Office, что не только сэкономит время пользователей за счет обобщения электронных писем и документов, но также предложит помощь в написании и ответит на вопросы, которые читатели могут задать о содержании.
Прочтите:Microsoft создает полностью автоматизированное хранилище данных ДНК
Кроме того, результаты открывают путь для более точных и беглых цифровых помощников и чат-ботов, помогающих предприятиям в управлении продажами и взаимоотношениями с клиентами.
Промышленные технологии
- Что мне делать с данными ?!
- Microsoft делает новый прорыв в области разговорного ИИ
- Начать с (Кибербезопасности) Конца в уме
- Цифровые сетевые платформы:модель пятиэтапной зрелости
- Оптимизация цепочки поставок в сфере здравоохранения с помощью WMS
- Защита глобальной цепочки поставок данными без границ
- Управление нехваткой ресурсов с помощью цифровых систем обслуживания
- Обеспечение будущего бизнеса с помощью цифровых технологий покупателя
- Как получить максимальную отдачу от инвестиций в генерацию лидов?
- SSI Schaffer предоставляет Coop «одно из крупнейших решений по автоматизации в мире».