Apple совместно с Калифорнийским университетом выпустила модель искусственного интеллекта с открытым исходным кодом MGIE.
Её особенность заключается в том, что она редактирует фото по текстовым командам. MGIE использует мультимодальные модели большого языка (MLLM), чтобы понимать команды пользователей и одновременно распознавать объекты на изображениях на уровне пикселей.
Искусственный интеллект может менять контраст, экспозицию, резкость, цветовой баланс, обрезать и вращать фото. Также он может выполнять сложные вещи, например, редактировать только определенные участки на снимке.
Например, можно сказать «удали женщину с заднего плана», после чего MGIE аккуратно вырежет человека и заменит его на другой фон.
MGIE может добавлять объекты. Если сказать «сделай её более здоровой», то MGIE добавит на фото пиццы помидоры и зелень.
Другой пример: если написать команду «сделай небо более синим», то ИИ увеличит насыщенность неба на 20%.
MGIE доступен на GitHub, где любой желающий может найти код и предварительно обученные модели.
Также протестировать ИИ можно на сайте Hugging Face Spaces . MGIE поддерживает только английский язык, а выполнение команд сейчас занимает несколько минут из-за большого наплыва пользователей на платформу. [VentureBeat]
Источник