Проектирането на системи за изкуствен интелект, способни на точно разпознаване на ориентири (т.е. разграничаване на Ниагарския водопад от обикновен водопад) и извличане на изображения (съвпадение на обекти в изображение с други примери с този обект в каталог), е дългогодишна амбиция на Google. Миналата година компанията пусна Google Landmarks, набор от данни за забележителности, за която твърди, че бе най-голямата в света, и беше домакин на два конкурса (Landmark Recognition 2018 и Landmark Retrieval 2018), в които участваха повече от 500 изследователи по машинно обучение.
Днес, в значителна стъпка към целта си за по-усъвършенствани модели за разпознаване на забележителности, Google пусна Google Landmarks v2 - нов, по-голям корпус за разпознаване на забележителности, съдържащ два пъти повече снимки и седем пъти повече забележителности. При това с отворен код. Освен това гигантът стартира две нови предизвикателства (Landmark Recognition 2019 и Landmark Retrieval 2019) в неговата общност за машинно обучение Kaggle, както и сорс кода и модела за Detect-to-Retrieve, рамка за извличане на изображения.
„И двата метода за разпознаване и извличане на образи изискват все по-големи масиви от данни както за броя на изображенията, така и за разнообразието от ориентири, за да се тренират по-добри и по-стабилни системи”, пишат софтуерните инженери Чао Бинги и Тобиас Вейанд. "Надяваме се, че този набор от данни ще спомогне за напредъка на най-съвременното ниво на разпознаване и извличане на образи."
Google Landmarks v2 съдържа над 5 милиона изображения на повече от 200 000 различни забележителности, събрани от фотографи от цял свят. Въпросните фотографи обозначават свои собствени изображения - които показват замъка Нойшванщайн, моста Голдън Гейт, Киомидзу-дера, Бурж Халифа, Великия Сфинкс в Гиза, Мачу Пикчу и други известни забележителности - и ги представят за включване. След това изследователите на Google ги допълват с исторически и по-малко познати изображения от Wikimedia Commons, онлайн хранилището на Фондацията на Уикимедия за свободни изображения, звуци и друга мултимедия.
Публикуваният модел - който е обучен с подгрупа от 80 000 изображения от първоначалния набор от данни - използва огромните масиви данни, за да даде „допълнително тегло“ на областите с изображения, които съдържат интересни обекти, което на свой ред значително подобрява точността на разпознаване и информация.