Промышленное производство
Промышленный Интернет вещей | Промышленные материалы | Техническое обслуживание и ремонт оборудования | Промышленное программирование |
home  MfgRobots >> Промышленное производство >  >> Manufacturing Technology >> Промышленные технологии

GLTR:новый метод определения языка, созданного компьютером

В последнее десятилетие сообщество, занимающееся обработкой естественного языка, стало свидетелем роста все более крупных и интеллектуальных языковых моделей.

Во времена искусственного интеллекта и глубоких нейронных сетей, оснащенных естественным языком человека, исследователи из Гарвардского университета и IBM Research разработали статистический метод обнаружения текста, сгенерированного компьютером.

Они создали интерактивный инструмент (общедоступный), чтобы отличить естественный человеческий язык и текст, генерируемый машинами, от человеческой речи. Цель состоит в том, чтобы предоставить людям больше информации, чтобы они могли принять осознанное решение о том, что является фальшивым, а что настоящим.

Модели искусственного интеллекта обычно обучаются на миллионах текстов (взятых из всемирной сети). Они предсказывают слова, которые чаще всего следуют друг за другом, чтобы имитировать человеческий язык. Например, за словом «вы», скорее всего, статически последуют слова «были», «имеют» и «являются».

Используя эту методологию, исследователи создали инструмент, который обнаруживает слишком предсказуемые тексты [вместо того, чтобы отмечать ошибки в текстах]. Это позволяет ИИ и людям работать вместе, чтобы определить язык, созданный машиной.

Как это работает?

Новая методика, получившая название «Комната тестирования гигантского языка» (GLTR), основана на модели, обученной примерно на 45 миллионах текстов с веб-сайтов. У него есть доступ к одной из крупнейших общедоступных моделей - GPT-2.

Таким образом, он может наблюдать, что GPT-2 предсказал бы в каждой позиции (для любого текстового ввода), и эффективно работает с GPT-2 и многими другими моделями.

GLTR представляет собой визуально криминалистический инструмент для идентификации автоматически сгенерированных текстов. Он показывает 3 разные гистограммы, объединяющие информацию по всему тексту.

Ссылка:The Harvard Gazette | GitHub

Просто введите абзац в панель инструментов, и он выделит все слова четырьмя разными цветами, каждый из которых обозначает предсказуемость слова в контексте того, за чем оно следует. Фиолетовый означает, что слово непредсказуемо; красный, немного предсказуемый; желтый, умеренно предсказуемый; а зеленым - слова в абзаце с высокой степенью предсказуемости.

Вот как выглядит машинно сгенерированный абзац -

Первая гистограмма показывает, сколько слов из каждой категории встречается в абзаце. Второй показывает соотношение между вероятностями самого высокого предсказанного слова и следующего слова. Третья гистограмма представляет собой распределение энтропий прогнозов.

Конечно, неопределенность будет выше для текстов, написанных людьми, особенно для исследовательских работ и академических текстов. Вот так выглядит аннотация исследовательской статьи (по галактикам EAGLE) -

Прочтите:Искусственный интеллект может генерировать речь на основе нейронной активности

Исследовательская группа также протестировала свой новый инструмент на группе выпускников компьютерных специальностей. Студенты смогли обнаружить 50% параграфов, сгенерированных компьютером, однако с помощью этого инструмента они идентифицировали 72%. Процент может быть еще выше, если немного потренироваться с системой.


Промышленные технологии

  1. Новый ИИ может определить, является ли источник новостей точным или политически предвзятым
  2. Новый метод повышения производительности квантового компьютера
  3. Исследователи предложили новый способ сделать объекты невидимыми
  4. Новая система может обнаруживать отказы в электромеханическом оборудовании до того, как они возникнут
  5. Microsoft делает новый прорыв в области разговорного ИИ
  6. Новый голографический метод захвата объекта за пределами досягаемости света
  7. Ученые разработали новый метод повышения яркости и эффективности экранов
  8. Новый метод может превратить любой объект в блок хранения данных
  9. Исследователи разрабатывают ИИ для обнаружения коронавируса
  10. Bosque:новый язык программирования Microsoft без циклов