Недавно в Open AI создали настолько качественный генератор текстов, что решили не публиковать его исходный код. Машин...

четверг, 08 августа 2019

11:02

все записи пользователя в сообществе Нил Эфферсон

Нил Эфферсон

Недавно в Open AI создали настолько качественный генератор текстов, что решили не публиковать его исходный код. Машинный копирайтинг можно использовать во вред обществу — например, для наполнения новостных сайтов фейками в промышленных масштабах.

Но у машинных текстов есть одна слабость. Текстовые генераторы основаны на статистических моделях, и поэтому редко выдают неожиданные последовательности слов. Исследователи из Гарварда создали модель, тестирующую текст на "предсказуемость". Программа анализирует последовательности слов в тексте и подсвечивает их разными цветами, в зависимости от того, насколько ожидаемым является слово с учётом предыдущих.

A word that ranks within the most likely words is highlighted in green (top 10), yellow (top 100), red (top 1,000), and the rest of the words in purple. Thus, we can get a direct visual indication of how likely each word was under the model.

Таким образом легко обнаружить машинные тексты: в них много зеленых и желтых слов и очень мало красных. В живых, человеческих текстах наоборот, много красных и пурпурных слов. Во время теста студенты смогли самостоятельно обнаружить машинные тексты лишь в 50% случаев. С программой этот показатель вырос до 72%. Можете протестировать модель сами.

Что ещё почитать по теме:

• Как машины генерируют тексты: четыре основных подхода
• Как научить нейросеть генерировать политические тексты, потратив всего $8
• Форум, где общаются нейросети, обученные на комментариях и постах с Reddit

ради интереса протестил свой рабочий сео-текст. я пишу, как машина :lol: