GLTR:новый метод определения языка, созданного компьютером

Новый статистический метод позволяет обнаруживать контент, созданный искусственным интеллектом.
Он работает, идентифицируя слишком предсказуемые тексты, а не просто отмечая ошибки в текстах.

В последнее десятилетие сообщество, занимающееся обработкой естественного языка, стало свидетелем роста все более крупных и интеллектуальных языковых моделей.

Во времена искусственного интеллекта и глубоких нейронных сетей, оснащенных естественным языком человека, исследователи из Гарвардского университета и IBM Research разработали статистический метод обнаружения текста, сгенерированного компьютером.

Они создали интерактивный инструмент (общедоступный), чтобы отличить естественный человеческий язык и текст, генерируемый машинами, от человеческой речи. Цель состоит в том, чтобы предоставить людям больше информации, чтобы они могли принять осознанное решение о том, что является фальшивым, а что настоящим.

Модели искусственного интеллекта обычно обучаются на миллионах текстов (взятых из всемирной сети). Они предсказывают слова, которые чаще всего следуют друг за другом, чтобы имитировать человеческий язык. Например, за словом «вы», скорее всего, статически последуют слова «были», «имеют» и «являются».

Используя эту методологию, исследователи создали инструмент, который обнаруживает слишком предсказуемые тексты [вместо того, чтобы отмечать ошибки в текстах]. Это позволяет ИИ и людям работать вместе, чтобы определить язык, созданный машиной.

Как это работает?

Новая методика, получившая название «Комната тестирования гигантского языка» (GLTR), основана на модели, обученной примерно на 45 миллионах текстов с веб-сайтов. У него есть доступ к одной из крупнейших общедоступных моделей - GPT-2.

Таким образом, он может наблюдать, что GPT-2 предсказал бы в каждой позиции (для любого текстового ввода), и эффективно работает с GPT-2 и многими другими моделями.

GLTR представляет собой визуально криминалистический инструмент для идентификации автоматически сгенерированных текстов. Он показывает 3 разные гистограммы, объединяющие информацию по всему тексту.

Ссылка:The Harvard Gazette | GitHub

Просто введите абзац в панель инструментов, и он выделит все слова четырьмя разными цветами, каждый из которых обозначает предсказуемость слова в контексте того, за чем оно следует. Фиолетовый означает, что слово непредсказуемо; красный, немного предсказуемый; желтый, умеренно предсказуемый; а зеленым - слова в абзаце с высокой степенью предсказуемости.

Вот как выглядит машинно сгенерированный абзац -

Первая гистограмма показывает, сколько слов из каждой категории встречается в абзаце. Второй показывает соотношение между вероятностями самого высокого предсказанного слова и следующего слова. Третья гистограмма представляет собой распределение энтропий прогнозов.

Конечно, неопределенность будет выше для текстов, написанных людьми, особенно для исследовательских работ и академических текстов. Вот так выглядит аннотация исследовательской статьи (по галактикам EAGLE) -

Прочтите:Искусственный интеллект может генерировать речь на основе нейронной активности

Исследовательская группа также протестировала свой новый инструмент на группе выпускников компьютерных специальностей. Студенты смогли обнаружить 50% параграфов, сгенерированных компьютером, однако с помощью этого инструмента они идентифицировали 72%. Процент может быть еще выше, если немного потренироваться с системой.

Искусственные нейроны могут быть столь же эффективны, как и человеческий мозг ИИ может собрать кубик Рубика за секунды, без каких-либо конкретных знаний предметной области

Промышленные технологии

Производственный процесс

3D печать

Система управления автоматикой

Промышленные технологии