AI-ն այժմ կարող է հասկանալ ձեր տեսանյութերը՝ դիտելով դրանք

Բովանդակություն:

AI-ն այժմ կարող է հասկանալ ձեր տեսանյութերը՝ դիտելով դրանք
AI-ն այժմ կարող է հասկանալ ձեր տեսանյութերը՝ դիտելով դրանք
Anonim

Հիմնական տանողներ

  • Հետազոտողները ասում են, որ կարող են սովորեցնել արհեստական ինտելեկտին պիտակավորել տեսանյութերը՝ դիտելով և լսելով:
  • AI համակարգը սովորում է ներկայացնել տվյալներ՝ տեսողական և աուդիո տվյալների միջև համօգտագործվող հասկացությունները գրավելու համար:
  • Սա AI-ին ուսուցանելու ջանքերի մի մասն է հասկանալ հասկացությունները, որոնք մարդիկ դժվարանում են սովորել, բայց համակարգիչները դժվարությամբ են ընկալում:

Image
Image

Արհեստական ինտելեկտի նոր համակարգը (AI) կարող է դիտել և լսել ձեր տեսանյութերը և նշել, թե ինչ է կատարվում:

MIT-ի հետազոտողները մշակել են մի տեխնիկա, որը սովորեցնում է արհեստական ինտելեկտին ֆիքսել վիդեո և աուդիո համատեղ գործողությունները:Օրինակ, նրանց մեթոդը կարող է հասկանալ, որ տեսահոլովակում երեխայի լացը կապված է ձայնային հոլովակում ասված «լաց» բառի հետ: Սա արհեստական ինտելեկտին սովորեցնելու ջանքերի մի մասն է, թե ինչպես հասկանալ հասկացությունները, որոնք մարդիկ դժվարանում են սովորել, բայց համակարգիչները դժվարությամբ են ընկալում:

«Գերիշխող ուսուցման պարադիգմը, վերահսկվող ուսուցումը, լավ է աշխատում, երբ ունես տվյալների հավաքածուներ, որոնք լավ նկարագրված և ամբողջական են», - ասել է AI փորձագետ Ֆիլ Ուինդերը Lifewire-ին տված հարցազրույցում: «Ցավոք, տվյալների հավաքածուները հազվադեպ են ամբողջական, քանի որ իրական աշխարհը վատ սովորություն ունի ներկայացնելու նոր իրավիճակներ»:

Ավելի խելացի AI

Համակարգիչները դժվարանում են պարզել առօրյա սցենարները, քանի որ նրանք պետք է սեղմեն տվյալները, այլ ոչ թե ձայնն ու պատկերները մարդկանց նման: Երբ մեքենան «տեսնում է» լուսանկարը, այն պետք է կոդավորի այդ լուսանկարը տվյալների մեջ, որը կարող է օգտագործել պատկերների դասակարգման նման առաջադրանք կատարելու համար: AI-ն կարող է խճճվել, երբ մուտքերը գալիս են բազմաթիվ ձևաչափերով, ինչպիսիք են տեսանյութերը, աուդիո հոլովակները և պատկերները:

«Այստեղ հիմնական մարտահրավերն այն է, թե ինչպես կարող է մեքենան համապատասխանեցնել այդ տարբեր եղանակները: Որպես մարդիկ, դա հեշտ է մեզ համար», - ասաց Ալեքսանդր Լյուն, MIT-ի հետազոտող և թեմայի վերաբերյալ հոդվածի առաջին հեղինակը: լրատվական թողարկում. «Մենք տեսնում ենք մեքենա, այնուհետև լսում ենք մեքենայի ձայնը, որը անցնում է կողքով, և մենք գիտենք, որ դրանք նույնն են: Բայց մեքենայական ուսուցման համար դա այնքան էլ պարզ չէ»:

Լյուի թիմը մշակել է արհեստական ինտելեկտի տեխնիկա, որն, ըստ նրանց, սովորում է ներկայացնել տվյալներ՝ տեսողական և աուդիո տվյալների միջև համօգտագործվող հասկացությունները ֆիքսելու համար: Օգտագործելով այս գիտելիքները՝ նրանց մեքենայական ուսուցման մոդելը կարող է որոշել, թե կոնկրետ որտեղ է կատարվում տեսանյութը և պիտակավորել այն:

Նոր մոդելը վերցնում է չմշակված տվյալներ, ինչպիսիք են տեսանյութերը և դրանց համապատասխան տեքստային ենթագրերը, և կոդավորում է դրանք՝ հանելով տեսանյութի օբյեկտների և գործողությունների վերաբերյալ առանձնահատկություններ կամ դիտարկումներ: Այնուհետև այն քարտեզագրում է այդ տվյալների կետերը ցանցում, որը հայտնի է որպես ներկառուցված տարածք: Մոդելը համանման տվյալները միավորում է որպես ցանցի առանձին կետեր. Այս տվյալների կետերից կամ վեկտորներից յուրաքանչյուրը ներկայացված է առանձին բառով:

Օրինակ, մարդու ձեռնածություն կատարող տեսահոլովակը կարող է քարտեզագրվել վեկտորի վրա, որը պիտակավորված է «խոնգլիա»:

Հետազոտողները նախագծել են մոդելը, որպեսզի այն կարողանա օգտագործել միայն 1000 բառ վեկտորները պիտակավորելու համար: Մոդելը կարող է որոշել, թե որ գործողություններ կամ հասկացություններ է ուզում կոդավորել մեկ վեկտորի մեջ, բայց կարող է օգտագործել միայն 1000 վեկտոր: Մոդելը ընտրում է այն բառերը, որոնք, իր կարծիքով, լավագույնս ներկայացնում են տվյալները:

«Եթե կա խոզերի մասին տեսանյութ, մոդելը կարող է վերագրել «խոզ» բառը 1000 վեկտորներից մեկին: Այնուհետև, եթե մոդելը լսի, որ ինչ-որ մեկը ասում է «խոզ» բառը աուդիո հոլովակում, այն դեռ պետք է օգտագործի նույն վեկտորը դա կոդավորելու համար», - բացատրեց Լյուն:

Ձեր տեսանյութերը, վերծանված

Ավելի լավ պիտակավորման համակարգերը, ինչպիսին է MIT-ի մշակածը, կարող են օգնել նվազեցնել AI-ի կողմնակալությունը, Lifewire-ին տված հարցազրույցում ասել է Innovatrics կենսաչափական ընկերության հետազոտության և զարգացման ղեկավար Մարիան Բեսզեդեսը: Բեսզեդեսն առաջարկել է, որ տվյալների արդյունաբերությունը կարող է դիտել AI համակարգերը արտադրական գործընթացի տեսանկյունից:

«Համակարգերն ընդունում են հումքային տվյալները որպես մուտքագրում (հումք), նախամշակում են դրանք, ընդունում, որոշումներ կամ կանխատեսումներ են կայացնում և ելքային վերլուծություն (պատրաստի ապրանքներ», - ասաց Բեսզեդեսը: «Մենք այս գործընթացի հոսքն անվանում ենք «տվյալների գործարան», և ինչպես մյուս արտադրական գործընթացները, այն պետք է ենթարկվի որակի հսկողության: Տվյալների արդյունաբերությունը պետք է AI-ի կողմնակալությանը վերաբերվի որպես որակի խնդիր::

«Սպառողների տեսանկյունից սխալ պիտակավորված տվյալներն ավելի են դժվարացնում, օրինակ, կոնկրետ պատկերների/տեսանյութերի առցանց որոնումը», - ավելացրել է Բեսզեդեսը: «Ճիշտ զարգացած AI-ով դուք կարող եք պիտակավորում կատարել ավտոմատ կերպով, շատ ավելի արագ և չեզոք, քան ձեռքով պիտակավորումը»:

Image
Image

Բայց MIT մոդելը դեռևս որոշ սահմանափակումներ ունի: Առաջին հերթին, նրանց հետազոտությունը կենտրոնացած էր միաժամանակ երկու աղբյուրից ստացված տվյալների վրա, բայց իրական աշխարհում մարդիկ միաժամանակ հանդիպում են բազմաթիվ տեսակի տեղեկատվության, - ասաց Լյուն:

«Եվ մենք գիտենք, որ 1000 բառ աշխատում է այս տեսակի տվյալների վրա, բայց մենք չգիտենք, թե արդյոք այն կարելի է ընդհանրացնել իրական աշխարհի խնդրին», - ավելացրեց Լյուն:

MIT-ի հետազոտողները ասում են, որ իրենց նոր տեխնիկան գերազանցում է շատ նմանատիպ մոդելներին: Եթե արհեստական ինտելեկտը կարող է սովորել տեսանյութերը հասկանալու համար, դուք, ի վերջո, կկարողանաք չդիտել ձեր ընկերոջ արձակուրդի տեսանյութերը և փոխարենը ստանալ համակարգչի կողմից ստեղծված հաշվետվություն:

Խորհուրդ ենք տալիս: