СЛУШАО САМ ГЛАСОВЕ ЉУДИ. ТАДА ЈЕ ТО СТВОРИЛО ЊИХОВА ЛИЦА.

Send

Да ли сте икада конструисали менталну слику особе коју никада нисте видели, засновану искључиво на њиховом гласу? Вештачка интелигенција (АИ) сада то може урадити, стварајући дигиталну слику лица неке особе користећи само кратак аудио снимак за референцу.

Названу Спеецх2Фаце, неуронску мрежу - рачунар који „размишља“ на начин сличан људском мозгу - научници су обучавали на милионима образовних видеа са интернета који су приказивали више од 100.000 различитих људи како разговарају.

Из овог скупа података Спеецх2Фаце је научио повезаност између вокалних знакова и одређених физичких карактеристика људског лица, написали су истраживачи у новој студији. АИ је тада користио аудио снимак да би моделирао фотореалистично лице које одговара гласу.

Открића су објављена на мрежи 23. маја у пре-принт јоунрал арКсив и нису рецензирана.

Срећом, АИ (још) не зна тачно како изгледа одређени појединац на основу самог гласа. Неуронска мрежа препознала је одређене маркере у говору који су указивали на пол, старост и етничку припадност, карактеристике које деле многи људи, известили су аутори студије.

"Као такав, модел ће произвести само лица просечног изгледа", написали су научници. "Неће створити слике одређених појединаца."

АИ је већ показао да може произвести неочекивано тачна људска лица, мада су његове интерпретације мачака искрено помало застрашујуће.

Лица која је генерисао Спеецх2Фаце - сва окренута напред и са неутралним изразима - нису се тачно подударала са људима који стоје иза гласова. Међутим, слике обично обухватају исправан старосни распон, етничку припадност и пол појединаца, показала је студија.

Међутим, интерпретације алгоритма биле су далеко од савршених. Спеецх2Фаце је показао „мешовиту перформансу“ када се суочио са језичким варијацијама. На пример, када је АИ слушао аудио снимак азијског човека који говори кинески, програм је створио слику азијског лица. Међутим, када је исти мушкарац говорио на енглеском у другом аудио клипу, АИ је генерисао лице белог човека, известили су научници.

Алгоритам је такође показао полну пристрасност, повезујући малене гласове са мушким лицима и високе звукове са женским лицима. А будући да база података за обуку представља само образовне видео снимке са ИоуТубе-а, он "не представља подједнако целокупну светску популацију", написали су истраживачи.

Још једна забринутост због овог видео скупа података појавила се када је особа која се појавила на ИоуТубе снимку била изненађена када је сазнала да је његова сличност уграђена у студију, пренио је Слате. Ницк Сулливан, шеф криптографије у компанији Интернет Сецурити Цлоудфларе из Сан Франциска, неочекивано је уочио своје лице као један од примера који се користи за обучавање Спеецх2Фаце (и који се алгоритам репродуковао прилично приближно).

Сулливан није пристао да се појављује у студији, али се сматра да ИоуТубе видео снимци у овом скупу података буду доступни истраживачима да их користе без добијања додатних дозвола, према Слате.

Send