Gemini е впечатляващ ИИ, но демото му бе една голяма постановка за ефект

Tech

09.12.2023

Наскоро Google пусна публично Gemini, най-новия си голям езиков модел. Gemini се конкурира с GPT-4 на OpenAI и ще бъде в основата на голяма част от интелигентния изкуствен интелект на Google през следващите години. Google проведе фантастична практическа демонстрация, за да покаже възможностите на Gemini, и беше доста впечатляващо колко безпроблемен изглежда моделът на ИИ. Това обаче е само част от историята, тъй като сега стана ясно, че демонстрацията не е била точно демонстрация на Gemini в реално време.

Първо, нека да разгледаме видеоклипа на Google за практическо приложение на Gemini:

Доста впечатляващо, нали? Близнакът разбираше без усилие и безпроблемно говоримия език и изображенията, дори когато изображението се променяше динамично (например патицата се оцветяваше). Gemini беше толкова отзивчив, че нямаше усещане, че демонстрацията е взаимодействие с изкуствен интелект; можеше да бъде и човек.

Оказва се, че част от видеото не е истинска. Взаимодействието с ИИ не се случва по начина, по който Google демонстрира, че привидно ще се случи. Както посочва Bloomberg, в описанието на видеото в YouTube има следния отказ от отговорност:

"За целите на тази демонстрация закъснението в обработката на данни е намалено, а отговорите на Gemini са съкратени за краткост".

Макар това да показва, че отговорът на модела с изкуствен интелект би отнел повече време, Bloomberg отбелязва, че демонстрацията не е била проведена нито в реално време, нито с глас. Говорител на Google заяви, че тя е била направена чрез "използване на кадри на неподвижни изображения от заснетия материал и подсказване чрез текст".

Оказва се, че начинът, по който Gemini работи, е много по-подобен на изкуствения интелект, отколкото е представено в демонстрацията. Вицепрезидентът на Google по научните изследвания и един от ръководителите на Gemini демонстрира действителната работа на Gemini.

Във второто видео е показано как Gemini има първоначален набор от инструкции, който насочва вниманието му към последователността от обекти в изображението. След това на Gemini се подава неподвижно изображение заедно с текстово въвеждане. Когато моделът е стартиран, на Gemini му трябват около четири до пет секунди, за да изведе текстово съобщение.

Компанията никога не е споменавала, че това е демонстрация на живо и дори е имала отказ от отговорност за латентност и краткост. Но все пак е ясно, че Google си е позволил творческа свобода при създаването на демонстрацията.

Компаниите редактират демонстрациите си по-често, отколкото си мислите, че го правят, а демонстрациите с публика на живо са единствените, които трябва да приемате за чиста монета. Но може да се твърди, че демонстрацията на Google за Gemini е била твърде креативна и не е представяла точно начина на работа на Gemini.

Това доста прилича на начина, по който производителите на оригинални телефони показват на сцената мостри на снимки с камери и "Заснети със" снимки и видеоклипове, а истината се оказва, че за получаването на тези резултати са използвани допълнително оборудване и талант. Резултатите, които би получил обикновеният потребител, биха били съвсем различни, а повечето от нас са се научили да игнорират образците на камерата, особено тези, които компанията представя.

Снимка: Unsplash

Виж още: Създадоха синтетични организми, които могат да се възпроизвеждат

Тагове: