Uporaba tehnik globokega učenja za iskanje potencialnih človeških dejavnosti v videoposnetkih

Image Editing with Generative Adversarial Networks | Two Minute Papers #101 (Junij 2019).

Anonim

Ko policist začne z dvigom roke v prometu, se vozniki čutijo, da jih bo uradnik prisilil, da se ustavijo. Toda računalniki težje obdelajo naslednja verjetna dejanja ljudi, ki temeljijo na njihovem trenutnem vedenju. Zdaj je ekipa raziskovalcev A * STAR in sodelavcev razvila detektor, ki lahko v skoraj realnem času izbere, kje se bodo ljudje počeli v videoposnetkih.

Tehnologija analize slike bo morala bolje razumeti človeške namere, če naj bi bila zaposlena v številnih aplikacijah, pravi Hongyuan Žu, računalniški znanstvenik na Inštitutu za Infocomm Research A * STAR, ki je vodil študijo. Vozniki brez voznika morajo biti sposobni odkriti policiste in hitro in natančno razlagati svoja dejanja, za varno vožnjo, pojasnjuje. Avtonomni sistemi bi lahko bili tudi usposobljeni za prepoznavanje sumljivih dejavnosti, kot so boj, kraje ali spuščanje nevarnih predmetov ter opozarjanje varnostnikov.

Računalniki so že zelo dobri pri odkrivanju predmetov v statičnih slikah, zahvaljujoč globokim učnim tehnikam, ki uporabljajo umetne nevronske mreže za obdelavo kompleksnih informacij o sliki. Toda videoposnetki z gibljivimi predmeti so bolj zahtevni. "Razumevanje človeških dejanj v video posnetkih je nujen korak za izgradnjo pametnejših in prijaznejših strojev, " pravi Zhu.

Prejšnje metode za iskanje potencialnih človeških dejanj v videoposnetkih niso uporabljale okvirov globokega učenja in so bile počasne in nagnjene k napakam, pravi Zhu. Da bi to premagali, detektor YoTube ekipe združuje vzporedno dve vrsti nevronskih mrež: statično nevronsko omrežje, ki se je že izkazalo za natančno pri obdelavi fotografij in ponavljajoče se nevronsko omrežje, ki se običajno uporablja za obdelavo spreminjajočih podatkov, za prepoznavanje govora. "Naša metoda je prva, ki odkriva in sledi skupaj v enem globokem učnem plinovodu, " pravi Zhu.

Ekipa je testirala YoTube na več kot 3 000 video posnetkih, ki se rutinsko uporabljajo v eksperimentih s področja računalniške vizije. Poročajo, da so presegle najsodobnejše detektorje pri pravilni izbiri potencialnih človeških dejanj za približno 20 odstotkov za videoposnetke, ki prikazujejo splošne vsakodnevne dejavnosti in okoli 6 odstotkov za športne videoposnetke. Detektor občasno naredi napake, če so ljudje v videoposnetku majhni ali če je v ozadju veliko ljudi. Kljub temu, Zhu pravi: "Pokazali smo, da lahko najbolj potencialne človeške delovne regije zaznamo skoraj v realnem času."

menu
menu