Отказался от ChatGPT и перешёл на Bard от Google. Чем они отличаются, какой лучше

В январе 2023 года Google забила тревогу и организовала экстренное собрание, целью которого было решить проблему, которая угрожала самому существованию компании: сделать свой ChatGPT, только лучше.
ChatGPT к тому времени взял интернет штурмом, собрав 100 млн пользователей всего за 2 месяца. Это был крупнейший запуск новой платформы в мире. TikTok для того же результата потребовалось в 4 раза больше времени.
Тогда разработка OpenAI уже начала отбирать у Google самую ценную аудиторию в виде школьников и студентов, которые всё чаще стали использовать для поиска информации быстрого и точного чат-бота вместо постоянно ошибающегося поисковика. Закат техногиганта казался неизбежным.
Спустя всего месяц, в феврале 2023 года Google выпустила Bard. И хотя компания имела бесконечные информационные ресурсы, первая версия её ИИ не впечатлила. Ошибки генерации, путаница в фактах даже на презентационном видео и в целом скомканная работа Bard закрепляли ChatGPT в статусе несокрушимого чемпиона, равного которому не смогла сделать даже самая влиятельная веб-компания западного мира.

В теории Bard должен решать даже визуальные задачи, но пока эта функция недоступна
Но в декабре 2023 года Google презентовала Gemini. В X скептично отнеслись к проекту, поскольку запуск отделили от основного Bard в отдельный продукт, а это постоянно ведёт к похоронам на кладбище Google подобных сторонних проектов компании.

На одном примере:
1. Google представила Stadia: играйте по облаку прямо в Chrome
2. Google рассказала всё о стриминге игр Stadia
3. Google закроет игровой сервис Stadia 18 января и вернет всем деньги

Но в этот раз у Брина и Ко всё получилось.
Сейчас бесплатный Bard быстрее, точнее и умнее ChatGPT 4.0, который стоит $20. И это мы уже не говорим про сравнение с ChatGPT 3.5, который, хоть и принёс славу OpenAI, спустя год существования кажется допотопным чат-ботом.
Говорю это так уверенно, поскольку сам замечаю разницу и уже давно держу в быстром доступе именно Bard, а не Copllot от Microsoft и, тем более, не дорогостящий ChatGPT.
Ниже рассказываю, как Google сделала невозможное и к концу 2023 года обыграла OpenAI в гонке ИИ.
Сравниваем разработки Google против Microsoft x OpenAI

ChatGPT наиболее известен в двух продуктах, каждый в двух версиях
Сейчас под именем «ChatGPT» от OpenAI имеют ввиду не просто чат-бота, а ворох технологий, среди которых выделяются четыре сервиса.
Бесплатная версия ChatGPT на базе GPT-3.5 за год с запуска не изменилась ничем, кроме пополненной базы знаний о мире с сентября 2021 года до января 2022 года.
ChatGPT 4.0 с поддержкой распознания и генерации изображений на основе DALL•E 3 стоит 20 долларов. Кроме улучшенного понимания контекста к этой версии подключаются модули вроде словарей, голосовых ИИ, аналитики данных и другие.
Ассистент Copilot (ранее чат-бот в Bing) от Microsoft на базе двух версий: более быстрого ChatGPT 3.5 и более творческого ChatGPT 4.0. Оба распознают и генерируют изображения. Интегрирован в программы Microsoft и на днях вышел отдельным веб-сервисом и приложением для смартфонов.

Bard работает на Gemini Pro, одной из трёх версий новой LLM модели от Google
Bard от Google, в свою очередь, работает на базе нового генеративного ИИ домашней разработки Gemini Pro.
 Gemini – это семейство нейросетей, представленное Google 6 декабря 2023 года.
У него три ответвления:
• Gemini Nano для работы оффлайн
• Gemini Pro для чат-бота Bard и конкуренции ChatGPT 3.5
• Gemini Ultra для конкуренции с ChatGPT 4.0.
Изначально «движком» Bard была языковая модель LaMDA. В мае 2023 его перевели на более мощный PaLM 2, а 6 декабря 2023 года боту абсолютно бесшовно интегрировали Gemini Pro.
Получилась эволюция ИИ, в который постепенно добавили новые языки, логические рассуждения, поддержку кода, визуальное мышление, параллельно увеличивая эффективность работы, точность ответов и безопасность.
Доступ к Gemini Ultra откроют «позже в этом году» в новом чат‑боте Bard Advanced. Обе технологии недоступы для использования на январь 2024 года.
Поэтому в материале сравним Bard на базе Gemini Pro и Copilot на базе ChatGPT 3.5 и ChatGPT 4.0, так как оба бота имеют доступ к обновляемой информации поисковиков Google и Microsoft.
Как получить доступ к Bard и ChatGPT
Чтобы запустить Bard, нужно войти в ваш аккаунт на сайте bard.google.com. К боту открыт бесплатный и неограниченный доступ.
ChatGPT 3.5 доступен бесплатно через официальный сайт от OpenAI, начальную страницу Bing или Copilot от Microsoft.
Для использования ChatGPT нужно создать аккаунт OpenAI.
Для работы ChatGPT в Bing и Copilot регистрация не нужна.
Оба чат-бота работают по одному принципу

Подробное объяснение работы LLM
После успеха ChatGPT разработчики во всём мире поняли, что для генерации естественного контента лучше всего подходят LLM (Large Language Models) или «большие языковые модели».
Поэтому в основе Bard на базе алгоритмов Gemini Pro и ChatGPT эти модели и лежат. Подробно о том, как они работают, уже расписал тут.

В тему: Разобрался за неделю, как работает хайповый ChatGPT. Никакой магии

Если коротко, и Bard, и ChatGPT кодируют ваш текст в набор чисел-векторов, загружают код в латентное пространство, связывают в нём эти векторы с похожими словами и через несколько таких наслаивающихся друг на друга операций поиска декодируют результат.

Простое объяснение работы LLM. Система ищет похожие слова в несколько подходов и формирует результат на основе их относительности друг с другом
А вот отличают их задачи во время тренировки и контент, на котором сети обучили.
Исследовательские работы по возможностям опубликованы как для Gemini в Bard, так и для ChatGPT.
Судя по ним, основная разница ИИ в первоначальных задачах при их создании и в соответствующем процессе тренировок.
ChatGPT тренировали только на тексте, а в версии 4.0, грубо говоря, подключили модуль DALL•E 3 и вместе с ним научили ИИ работать с изображениями.
Gemini Pro, на основе которого работает Bard, сразу тренировали с использованием текста, видео и изображений.
Тут чуть внимательнее давайте посмотрим.
Bard разработан цельным, ChatGPT – первородный «франкенштейн». Повлияло на скорость

В своём разборе структуры ChatGPT уже рассказывал, что он был создан из связки нескольких нейросетей, построенных в цельную конструкцию. За простым интерфейсом стоит умная связка ранее отдельно разработанных ИИ.
Позже к обновлённому ChatGPT 4.0 добавили генерацию и распознание изображений через DALL•E 3 и поддержку модулей. Это только усилило фрагментацию и тем самым в какой-то степени ограничило чат-бота в удобстве использования простыми пользователями.
Bard, а точнее его «движок» в лице Gemini разрабатывали одним цельным продуктом. Gemini Ultra, конкурент ChatGPT 4.0 по мощности и находчивости, умеет одновременно анализировать изображения, голос, текст и, самое главное, считывать контекст в этой связке вводных.

ChatGPT поддерживает внешние модули и магазин «агентов», а Copilot интегрирован в сервисы Microsoft
Прямо при разработке Gemini тренировали и адаптировали под разнообразные «органы чувств», а не наращивали функциональность дополнительными модулями.
На Bard это лучше всего отражается в скорости обработки вводных и выдаче ответа. По сравнению с ChatGPT и Bing технология Google пишет результат молниеносно.
Но вот в качестве ответов разработка Google впечатляет не так тотально.
Тесты показали разницу в сильных сторонах обоих

Тест с изображением 1. Официальный арт GTV VI.
Bard отказывается работать с лицами, а ChatGPT в Bing автоматически размыл их при анализе для анонимности и предупредил об этом, а затем описал стиль изображения, точно понял количество и пол людей, а также цвет автомобиля несмотря на его блики. Игру не угадал.

Тест с изображением 2. Фото зарядки для iPhone.
Bard назвал неправильно предметы, их цвет, обманул с тем, что на зарядке что-то есть.
Bing даже в версии ChatGPT 3.5 с пугающей точностью назвал не только изображенные предметы и модель компьютера, но и заметил мелкие детали вроде цвета дерева, атмосферы кадра, логики расположения кабеля и обозначил, что сейчас на зарядке смартфона нет, но ровно для этого она предназначена.
Видимо, помогла поддержка самого нового DALL•E 3, новой версии генеративного визуального ИИ от OpenAI.

В тему: Как работает чудо-нейросеть DALL·E 2, которая генерирует любое изображение по тексту. Объясняем подробно

Тест с изображением 3. Вид с горы на Тбилиси.
Bard угадал локацию, но зачем-то описал похожую фотографию с интернета вместо загруженной, назвал объекты, которых там не было. Bing описал визуально здания, но упорно отказался назвать город и имена построек.

В тему: Сел на прямой рейс до Тбилиси и провёл там 6 дней. Вот лучшие места столицы Грузии в 2023 году

Тест на знания 1. «Какой сегодня день?»
Задал вопрос 8 января 2024 года, в выходной для России день.
Bard назвал дату, но ошибся с рабочим днём.
ChatGPT 3.5 ошибся с датой.
ChatGPT 4.0 дал дату, указал, что это выходной и пояснил контекст.

Тест на знания 2. «Кто разработал двигатель для «пятёрки»?»
Bard во втором черновике понял, что речь о ВАЗ 2105, описал характеристики, точно назвал год первой версии.
ChatGPT 3.5 подумал о BMW 5 Series, ChatGPT 4.0 тоже.

Тест на креативность. «О чём тебя спросить?»
Bard предложил понятные тесты с примерами.
ChatGPT 3.5 тоже предложил конкретные варианты, но без примеров.
ChatGPT 4.0 неожиданно отказался отвечать, но, как на светской вечеринке, отмахнулся изящным ответом. Я настойчиво попросил его всё же придумать что-то, после чего ChatGPT увело совсем в сторону.

Тест на фантазию. «Что в космосе человечество колонизирует первым?»
Все дали ответы в одной последовательности: Луна, Марк, астероиды и затем спутники газовых гигантов.
Но Bard был более ёмким и последовательным, хотя ChatGPT от Bing в обеих версиях (3.5 и 4.0) дали ссылки на конкретные планы и текущие достижения космических компаний разные стран.

Тест на логику. Задача на яблоки и апельсины.
«У меня 3 яблока. Их можно поменять на 1 банан. 1 банан можно поменять на 16 апельсинов. 1 яблоко можно поменять на 6 апельсинов. Апельсины можно менять как на яблоки, так и на бананы. Один апельсин стоит 20 рублей. Как мне накопить 1000 рублей?»
Все три чат-бота не поняли, как нужно считать.
Bard и ChatGPT 4.0 начали хорошо, но в середине потеряли суть расчётов и вообще контекст.
ChatGPT 3.5 «заколбасило« сразу после краткого пересказа вводных.
Правильный ответ: перевести яблоки в апельсины, апельсины в бананы с бонусом в 2 апельсина и повторить, пока не будет 34 апельсина и 1 банан.
Придумал задачу на ходу, она довольно простая, потому не ожидал таких проблем. Кажется, ИИ ещё не умеют в рыночные условия ?‍♂️
Bard удобнее ChatGPT, но отстаёт в возможностях

В итоге получается, что Bard на базе Gemini Pro по силе анализировать и контекстуализировать данные и ответы выступает на уровне ChatGPT 3.5, которому больше года. Однако ощущается он гораздо умнее.
Доступность, скорость и конкретность формулировок выделяют Bard на фоне любой версии ChatGPT, будь это бот от OpenAi или Copilot от Microsoft.
Функционально Bard отстаёт в том, что не умеет генерировать изображения. Оригинальный и бесплатный ChatGPT 3.5 тоже такое не поддерживает, но бесплатный Copilot от Microsoft использует удивительно мощный движок DALL•E 3 и потому умеет создавать изображения по запросу.
Также к Bard нельзя подсоединять дополнительные модули, как это возможно в оригинальном ChatGPT 4.0. Разработка Google умеет анализировать вашу почту в Gmail и историю YouTube, но только для пользователей на английском.
Однако для ежедневного использования скорость, читаемость и выдача актуальной информации оказалась лично для меня решающими факторами.
Именно поэтому добавил себе Bard в закреп Safari, в то время как про ChatGPT и Copilot вообще забыл.
А вы какими ботами пользуетесь чаще? Заметили разницу?
Источник