През октомври 2021 г. Илон Мъск написа в Twitter, че „хората шофират с очи и биологични невронни мрежи, така че камерите и силициевите невронни мрежи са единственият начин да се постигне общо решение за самоуправление“. Проблемът с неговата логика беше, че човешките очи са много по-добри от RGB камерите в откриването на бързо движещи се обекти и оценяването на разстояния. Мозъците ни също така са надминали всички изкуствени невронни мрежи с голяма разлика в общата обработка на визуални входове.
За да запълни тази празнина, екип от учени от Университета в Цюрих разработи нова автомобилна система за откриване на обекти, която постига ефективност на цифровите камери, която е много по-близка до тази на човешките очи. „Според неофициални източници Tesla използва множество камери Sony IMX490 с 5.4-мегапикселова резолюция, които заснемат до 45 кадъра в секунда, което означава възприемане с латентност от 22 милисекунди. Сравнявайки само тези камери с нашето решение, вече виждаме 100-кратно намаляване на възприемателната латентност“, казва Даниел Гериг, изследовател от Университета в Цюрих и водещ автор на проучването.
Когато пешеходец внезапно изскочи пред автомобила ви, преди системата за подпомагане на водача да започне аварийно спиране, трябва да се случат няколко неща. Първо, пешеходецът трябва да бъде заснет от камера. Времето, което отнема това, се нарича перцептивно закъснение - това е забавянето между съществуването на визуален стимул и появата му в показанията на сензора. След това прочетеното трябва да стигне до обработващия модул, което добавя мрежово закъснение от около 4 милисекунди.
Обработката за класифициране на изображението на пешеходец отнема още ценни милисекунди. След като това бъде направено, откритието се предава на алгоритъм за вземане на решения, който се нуждае от известно време, за да вземе решение за натискане на спирачките - цялата тази обработка е известна като изчислителна латентност. Като цяло времето за реакция е между 0.1 и половин секунда. Ако пешеходецът се движи със скорост 12 км/ч, за това време той ще измине между 0.3 и 1.7 метра. Вашият автомобил, ако се движи с 50 км/ч, би изминал от 1.4 до 6.9 метра. При среща от близко разстояние това означава, че най-вероятно ще го ударите.
Гериг и Давиде Скарамуца, професор в Университета в Цюрих и съавтор на изследването, са имали за цел да съкратят това време за реакция, като намалят латентността на възприятията и изчисленията.
Най-простият начин за намаляване на първия беше използването на стандартни високоскоростни камери, които просто регистрират повече кадри в секунда. Но дори и с камера с 30 - 45 кадъра в секунда самоуправляващият се автомобил ще генерира близо 40 терабайта данни на час. Монтирането на нещо, което би намалило значително закъснението при възприемане, като например камера с 5000 кадъра в секунда, би претоварило бордовия компютър на автомобила в един момент - изчислителното закъснение би се увеличило до небето.
Затова швейцарският екип използва нещо, наречено „камера за събития“, която имитира начина, по който работят биологичните очи. „В сравнение с кадровата видеокамера, която записва плътни изображения с фиксирана честота - кадри в секунда, - камерите за събития съдържат независими интелигентни пиксели, които измерват само промените в яркостта“, обяснява Гериг. Всеки от тези пиксели започва с определено ниво на яркост. Когато промяната в яркостта надхвърли определен праг, пикселът регистрира събитие и задава ново базово ниво на яркост. Всички пиксели в камерата за събития правят това непрекъснато, като всяко регистрирано събитие се проявява като точка в изображението.
Това прави камерите за събития особено добри в откриването на движение с висока скорост и им позволява да го правят, като използват много по-малко данни.
Гериг изчислява, че латентността на тази хибридна система е сравнима с тази на високоскоростна камера с 5000 кадъра в секунда, но се нуждае само от честотната лента на камера с 45 кадъра в секунда. И според него това ще става още по-бързо.
Снимка: Unsplash