С магията на DolphinGemma може да разговаряте с делфини чрез ИИ

HiEnd

16.04.2025

Дни след като пусна Deep Research, задвижван от Gemini 2.5 Pro Experimental, Google отново се връща към изкуствения интелект с нов модел - DolphinGemma. Този голям езиков модел има за цел да помогне на учените да изучат как общуват делфините и „да се надяваме, че ще могат да разберат и какво казват те“.

Компанията работи с изследователи от Техническия университет в Джорджия и проекта Wild Dolphin Project (WDP), ръководен от основателката му д-р Денис Херцинг. Основната мисия на WDP, както вероятно се досещате, е да наблюдава, документира и докладва за естественото поведение, социалните структури, моделите на комуникация и местообитанията на дивите делфини, по-специално на атлантическия петнист делфин (Stenella frontalis), чрез „неинвазивни, дългосрочни полеви изследвания“.

През годините WDP е събрала данни, които позволяват на алгоритъма да свърже определени звуци на делфините с поведението им. Например:

Типични „подсвирвания“, които могат да се използват от майките и децата им за събиране заедно
Импулсни „крясъци“, които често се наблюдават по време на битки
Кликащи „бръмчащи“ звуци, често използвани по време на ухажване или преследване на акули

Според Google анализът на естествената, сложна комуникация на делфините е монументална задача, а огромният маркиран набор от данни на WDP предоставя уникална възможност за авангарден изкуствен интелект.

Именно тук се появява DolphinGemma. Казано по-просто, това е модел на ИИ, разработен от Google върху набора от данни на WDP, който използва собствената аудио платформа SoundStream на Google, за да разбие вокализациите на делфините на по-удобни за управление аудио единици.

След това те се прекарват през специализирана архитектура на модела, предназначена за осмисляне на сложни последователности. Цялата конфигурация съдържа около 400 милиона параметъра, което я прави достатъчно лека, за да работи естествено на телефоните Pixel, които изследователите от WDP носят със себе си на терен.

За разлика от традиционните модели за машинно обучение DolphinGemma не работи с думи или изображения, а само с аудио входяща и изходяща информация. Тя приема поредици от естествени вокали на делфини, обработва ги, като използва подход, вдъхновен от начина, по който големите езикови модели разбират човешката реч, и предсказва най-вероятния следващ звук в поредицата.

Д-р Дениз Херцинг го сравнява с автоматичното попълване, но за делфински звуци, импулси и кликвания. Той е обучен да разпознава модели, структура и прогресия в тези звуци точно както един текстово базиран модел предсказва следващата дума в изречението въз основа на контекста.

Преди Google да се появи с DolphinGemma, екипът изследователи от WDP използва CHAT (Cetacean Hearing Augmentation Telemetry), за да проучи възможността за двустранна комуникация с делфини. Целта на CHAT не е била да се разгадае цялата сложност на езика на делфините, а да се създаде по-прост, общ речник за взаимодействие.

Системата работи чрез свързване на нови, синтетични звуци, създадени от CHAT, с конкретни обекти, които делфините изглежда харесват - неща като саргасум, морска трева или дори шалове, които изследователите използват. Надеждата е, че чрез многократното асоцииране на тези синтетични звуци с предмети делфините ще започнат да имитират звуците, за да „поискат“ тези предмети.

CHAT работи с Google Pixel 6, който обработва висококачествен аудио анализ в реално време. Използването на готови телефони означава, че екипът не се е нуждаел от специално оборудване. Това направи нещата по-прости, по-евтини, по-ефективни и по-лесни за поддръжка в открития океан.

За предстоящите нови изследвания учените преминават към Pixel 9, който добавя по-добри възможности за високоговорител и микрофон и има достатъчно мощност, за да работи едновременно с модели за дълбоко обучение и съпоставяне на модели.

Подобно на другите модели Gemma, Google заявява, че предлага DolphinGemma като отворен модел това лято с надеждата да „предостави на изследователите по целия свят инструменти за проучване на собствени набори от акустични данни, да ускори търсенето на модели и да задълбочи колективното ни разбиране за тези интелигентни морски бозайници“.

Gemma е семейство от леки големи езикови модели, разработени от Google. Най-новото попълнение в семейството е Gemma 3, който се предлага в четири размера: 1 милиард, 4 милиарда, 12 милиарда и 27 милиарда параметри.

Снимка: Unsplash/Google

Виж още: Прецизността, с която този робот на BMW извършва задачи в завода, може да засрами всеки работник (ВИДЕО)

Тагове: