Енигматичан, насликан осмех "Мона Лизе" познат је широм света, али то познато лице недавно је показало запањујући нови спектар израза, љубазношћу вештачке интелигенције (АИ).
У видео снимку који је 21. маја подијељен на ИоуТубеу, три видео снимка приказују узнемирујуће примјере Мона Лисе док помиче усне и окреће главу. Њега је створила конволуционарна неуронска мрежа - врста АИ која обрађује информације онолико колико људски мозак ради, да би анализирала и обрадила слике.
Истраживачи су обучили алгоритам да разумеју опште форме црта лица и како се понашају у односу једни на друге, а затим да те информације примене на фотографије. Резултат је био реалан видео низ нових израза лица из једног кадра.
За видео записе Мона Лиса, АИ је "научио" кретање лица из скупова података три људска субјекта, производећи три врло различите анимације. Иако је сваки од три клипа још увек био препознатљив као Мона Лиса, варијације у изгледима и понашању модела тренинга усвојиле су различите личности „живим портретима“, Егор Закхаров, инжењер са Института за науку и технологију у Сколкову, и Самсунг АИ центар (оба се налазе у Москви), објашњено је у видеу.
Закхаров и његове колеге такође су генерисали анимације из фотографија културних икона 20. века, попут Алберта Еинстеина, Марилин Монрое и Салвадор Дали. Истраживачи су описали своја открића, која нису била рецензирана, у студији објављеној на мрежи 20. маја у часопису за претпринтач арКсив.
Израда оригиналних видео записа попут ових, познатијих као деепфакес, није лако. Људске главе су геометријски сложене и врло динамичне; 3Д модели глава имају "десетине милиона параметара", написали су аутори студије.
Штавише, систем људског вида је врло добар у препознавању "чак и мањих грешака" у људским главама 3Д модела, наводи се у студији. Гледање нечега што изгледа готово људско - али не баш - покреће осећај дубоке нелагоде познат као ефекат валовите долине.
АИ је раније показао да је могуће стварање убједљивих дубинских грешака, али за то је потребан више углова жељеног предмета. За нову студију, инжењери су увели АИ у веома велики скуп референтних видео записа који приказују људска лица у акцији. Научници су утврдили оријентире на лицу које би се односиле на било које лице, како би научили неуронску мрежу како се лица понашају уопште.
Затим су обучили АИ да користе референтне изразе за мапирање кретања карактеристика извора. Ово је омогућило АИ да створи дубинску обраду чак и када је имао само једну слику на којој ће радити, објавили су истраживачи.
И више изворних слика је дало још детаљнији резултат у финалној анимацији. Научници су написали видео снимци настали из 32 слике, а не само једне, који су постигли "савршен реализам".