Разработчики из компании Microsoft представили нейросеть, способную рисовать изображения на основе текстового описания. Препринт статьи, посвященной разработке, был опубликован на сайте arXiv.org.

Как поясняет N+1, в настоящее время существуют алгоритмы, способные создавать изображения, а в их основе, как и в основе алгоритма Microsoft, лежат так называемые порождающие состязательные нейросети (generative adversarial networks - GAN), которые состоят из генератора и дискриминатора. Генератор создает новые объекты, похожие на объекты из обучающей выборки, доступа к которой у генератора нет, а задача дискриминатора состоит в том, чтобы решить, принадлежит ли сгенерированный объект к классу объектов из доступной ему обучающей выборки, и дать соответствующий сигнал генератору.

Особенность новой нейросети состоит в том, что алгоритм генерирует изображение не из всего описания сразу, превращая его в один вектор-предложение, а изучает детали, оценивая каждое слово описания. По итогам испытания при помощи изображений и их описаний из базы COCO нейросеть превзошла аналогичные алгоритмы по точности на 170%. Наилучшие результаты алгоритм Microsoft показал при воссоздании изображений птиц с использованием базы данных CUB.


Напомним, на прошлой неделе стало известно, что группа исследователей из Киотского университета разработала нейросеть, способную реконструировать изображения предметов, букв и простых фигур на основе данных о мозговой активности смотрящих на них людей.