Наскоро Google подробно описа усилията си за борба със спама в Gmail чрез по-добри методи за класифициране на текстове. Понастоящем злонамерените атаки разчитат на многобройни техники, сред които акцентиране на ключови думи, невидими символи и други, за да заобиколят защитите за откриване на спам, като например класификатори на текстове, базирани на алгоритми за машинно обучение. За да се пребори с този проблем, Google е разработила векторизатор на текст, наречен RETVec, който работи на множество езици.

RETVec е съкращение от Resilient and Efficient Text Vectorizer (Устойчив и ефективен векторизатор на текст) и според Google прави точно това, което е написано на етикета. Компанията твърди, че нейният нов подход към векторизацията на текст осигурява най-съвременна производителност, като същевременно намалява разходите за изчисления. По време на вътрешните си тестове, продължили повече от година, RETVec е постигнал подобрение от 38% спрямо базовия показател при откриването на спам в Gmail, както и намаление от 19.49% и 17.71%, когато става въпрос за фалшиви положителни и фалшиви отрицателни резултати.

По подобен начин, в сравнение с базовия вариант, латентността е намалена с 30%, докато намаляването на броя на Tensor Processing Units (TPU) и използването на паметта им е съответно 83.13% и 62.50%. Въпреки това броят на процесорните ядра се е увеличил с 20%. Google твърди, че подобренията в производителността се дължат на по-лекия модел за вграждане на думи - с 200 000 параметъра - Transformer, механизмите за ефективно превключване на изчисленията между хост системата и TPU, компактния енкодер, обучението, базирано на аугментации, и използването на метрично обучение. В своята съвкупност всички тези подобрения доведоха до това, че RETVec е най-големият защитен ъпгрейд на Gmail от години насам, като Google го внедрява и в своето приложение за електронна поща за крайни потребители.

Google подчерта, че RETVec работи на всички езици и със знаци с кодировка UTF-8. Той не изисква и предварителна обработка на текста, което означава, че можете да го използвате в първоначалния му вид. Технологичната фирма се похвали, че тези възможности правят векторизатора силен кандидат за внедряване в среди, които изискват мащабна класификация на текст в мрежата или в самото устройство. По-малкият модел на трансформатора осигурява намалена латентност и изчислителни разходи, които са много важни фактори при мащабно внедряване на класификатори на текст.

Това обаче не е всичко. Моделите за машинно обучение, които са обучени на RETVec, могат да бъдат конвертирани в TFLite чрез нативна имплементация в колекцията от библиотеки TensorFlow Text, което означава, че можете да ги разгърнете и на мобилни и крайни устройства, които обикновено имат ограничен достъп до изчислителна и мрежова инфраструктура. По същия начин, ако искате да внедрите модел, базиран на RETVec, в уеб, можете да използвате имплементацията на TensorFlow.js и да разгледате демонстрацията на RETVecJS и тук.

И накрая, важно е да се отбележи, че RETVec е с отворен код, като кодът е хостван в GitHub заедно с метода за инсталиране, а подробното ръководство е налично като файл в бележник на Jupyter тук. RETVec би трябвало вече да води до намаляване на спама във входящата ви поща в Gmail, тъй като това е подобрение на бекенда, което не изисква човешка намеса.

Снимка: Unsplash

Виж още: AI може да превърне в реалност 4-дневната работна седмица

 

Тагове: