0+
Как нейросеть превращает текст в изображения:
Как нейросеть превращает текст в изображения:

Поэтапно это происходит так: 1. Первая нейросеть называется CLIP, она переводит написанный (человеческий) текст в компьютерный язык в виде цифр. 2. Далее CLIP превращает этот набор цифр в таблицу с другими цифрами. Такая таблица играет роль «наброска» или «скелета», по которому создаётся конечное изображение. Чтобы всё сработало, CLIP тренировали на 600 миллионах картинок и подписей к ним. 3. «Черновик» переходит во вторую нейросеть под названием GLIDE. 4. Вторая нейросеть GLIDE берёт первоначальный компьютерный текст из пункта 1 и полученную схему из пункта 2, совмещает данные с них. На основе такого микса она создаёт серый зернистый квадрат, из которого постепенно убирает зерно и тем самым проявляет картинку в плохом качестве. Этот метод проявки называется «применение Диффузной модели». 5. Третья нейросеть увеличивает качество картинки в 16 раз и показывает нам финальный результат.