Простыми словами о генеративных нейронках 10.01.2024 14:52 – 03.03.2024 17:30

Пути назад у человечества уже нет. Постараюсь обобщить вопросы и тезисно.

— Нейронки это уже искусственный интеллект?
Нейронка это программа, механизм. Как дверной замок или кофемолка, но чуть сложнее. Аура волшебности исчезнет, как только вы разберётесь в том, как механизм устроен. Вряд ли кто-от из ныне живущих застанет появление того, что должно называться Искусственным интеллектом (хотя, судя по тому, как СМИ эту фразу уже приклеили к нейронкам, для настоящего ИИ, похоже, нашим потомкам придётся придумывать какой-то другой термин).

— Нейронки заменят человека?
Глупость. Нейронка – это инструмент. Более продвинутый, чем те, что были раньше. Инструмент не может заменить человека. Но оптимизрует бизнес-процессы. Там, где нужно было много человеко-часов, теперь будет нужно существенно меньше.

— Нейронка сильнее художника?
Нейронка – инструмент для подражания художникам. Но вообще это разные вещи, которые не нужно путать. Художник обладает умением и его продукт первичен. Кроме того, у картины есть автор (и ценность всегда зависит то того “работа кисти" кого). Фотография картины сильнее самой картины? Несравнимые категории. Художники, умеющие использовать все инструменты, включая самые новые, наверное, будут успешнее.

— Как работает нейронка?
Модель состоит из миллионов (или даже сотен миллионов) описанных разными словами изображений. Нейронная сеть выбирает случайные образцы (изображения) из этого набора, основываясь на вашем текстовом промпте. Смешивает их и формирует “латент” (latent) – предварительное, не готовое, мутное изображение.

Далее нейронка будет улучшать латент: детализировать, добавлять детали, увеличивать резкость, используя ту же модель, выбирая там новые образцы (уже не только на основании промпта, но и на основе компьютерного зрения – т.е. искать, как на реальных фото выглядит предмет, похожий на те мутные очертания, что получился на предыдущей стадии).

Этот алгоритм постепенно увеличивает детализацию от грубых очертаний объектов, до резкого изображения, а в самом конце может включиться “рефайнер” (refiner) – ещё один алгоритм, который попытается опознать предметы и увеличить их детализацию. В SD вы можете указать другую модель для работы с рефайнером и контролировать количество времени, отведённого на его работу. (Модель для рефайнера имеет право не очень хорошо знать, как, например, выглядит дерево издалека, но иметь большую базу вариантов того, как выглядят его листья и кора).

А после всего этого включится ещё один алгоритм со своими образцами – VAE, он улучшает качество картинки как с точки зрения линий и шумов, так и с точки зрения разнообразия цвета объектов. Большинство моделей имеют встроенный VAE.

Это очень в целом, округление для широкого круга читателей, на самом деле всё сложнее и запутаннее.

— Все нейронки с картинками одинаковые?
В целом да, это один алгоритм, работающий с большими данными. Но у нейронки есть алгоритм (точнее то, как он реализован разработчиком конкретной нейронки) и модель (набор данных, в данном случае картинок, и то, как они описаны тегами).

На выходе, главное отличие нейронок друг от друга в том, насколько точно полученный результат соответствует тому, что вы пытались получить. И вот тут кроется ответ на вопрос, чем отличается StableDiffusion от всех остальных.

StableDiffusion даёт вам набор настроек и возможностей управлять результатом, настолько широкий, что принципиально отличает его от всего остального. Например: точное указание позы, включая пальцы, эмоций, точности лиц, фигур, возраста, цвета отдельных элементов, мощный апскейл, возможность добавления или удаления предметов из готовой картинки, возможность перегенерации отдельных элементов картинки (inpaint) и очень много чего ещё. Продолжая использовать примеры, есть трамвай, который везёт вас по своему маршруту. И есть личный автомобиль, который вы направляете туда, куда нужно вам. StableDiffusion – второе.

— Почему нейронок с картинками так много?
Есть программы от разных авторов и есть онлайн-сервисы, которые используют у себя под капотом программы от разных авторов (наклеивая свой бренд). В картинках 90% онлайн-нейронок это преднастроенный StableDiffusion.

— Тогда какие нейронки есть на самом деле?
Самые известные:

StableDiffusion – открытый код, можете забирать и использовать у себя на компьютере или внутри своего проекта (но есть нюансы, о которых отдельно ниже).

Midjourney – платная закрытая, очень мощная программа, по качеству лучших результатов сравнима со StableDiffusion. Есть кое-какие настройки, работает из командной строки (готовят профессиональный интерфейс как у автоматика). Чекпоинт выбирает сама исходя из промпта. Миджорни работает внутри Дискорда, как бот.

DALL-E – продукт OpenAI (это разработчики ChatGPT, спонсируется компанией Microsoft). Бесплатно 15 запросов в неделю (на момент этого моего поста).
Недостатки: пластилиновые картинки, одни и те же несколько лиц, практически нет настроек.
Преимущества: очень хорошее понимание промпта (под капотом очень хорошо описанная большая модель или даже набор моделей для разных тематик; и, возможно, какое-то переформулирование).
Есть более продвинутый режим, доступен через платную подписку на ChatGPT.

Adobe Photoshop – как ни странно. Адоб очень давно занимается разработкой генеративных алгоритмов, но в последнее время почему-то немного отстал. Нейронка встроена в сам Фотошоп. От тех, кто указан выше – отстаёт.

Шедеврум (Яндекс), Кандинский (Сбер) – самостоятельные продукты, но мы их знаем только из-за того, что они российские и говорят по-русски. На данный момент это скорее игрушки, чем инструменты. Наверное, у них ещё всё впереди.

Leonardo.AI, Magnific.AI и ещё много подобных онлайн-сервисов – в основном преднастроенный или изменённый StableDiffusion. Есть интересные, например Everart.AI – позволяет тренировать самостоятельно простенькие модельки без углубления в технику.

— Как этим всем пользоваться?
Леонардо https://leonardo.ai/
Шедеврум https://shedevrum.ai/
К⁠⁠андинский https://www.sberbank.com/promo/kandinsky/
К⁠⁠андинский на свой компьютер https://github.com/ai-forever/Kandinsky-3
Everart https://www.everart.ai/
DALL-E https://www.bing.com/images/create/ (просто так из РФ не работает)
Midjourney https://discord.com/channels/662267976984297473

StableDiffusion
На свой компеьютер. Если есть видеокарта от NVidia (в идеале 3000 или 4000 серии) с 8 или больше ГБ оперативной видеопамяти (плюс не менее 16 ГБ оперативки в компьютере) и желание осилить установку pip, git, python и саму нейронку – вы на коне и сможете использовать всю её мощь бесплатно и без ограничений. Инструкция и файлы здесь: https://github.com/AUTOMATIC1111/stable-diffusion-webui

КОММЕНТАРИИ: 1 Ответы

gritatyur1974

10.01.2024 20:22 #1

Спасибо Вам! Очень просто и доступно!

Виктор Садовский

Простыми словами о генеративных нейронках 10.01.2024 14:52 – 03.03.2024 17:30

Обсуждение доступно только зарегистрированным участникам