Հիմնական տանողներ
- Մետան օգտագործում է AI-ն՝ ծրագրեր ստեղծելու համար, որոնք կարող են արտահայտել զգացմունքները խոսքում:
- Ընկերության AI թիմն ասաց, որ առաջընթաց է գրանցել արտահայտիչ վոկալիզացիաների մոդելավորման մեջ, ինչպիսիք են ծիծաղը, հորանջելը, լացը և «ինքնաբուխ զրույցը» իրական ժամանակում:
- AI-ն օգտագործվում է նաև խոսքի ճանաչման բարելավման համար:
Դուք շուտով կկարողանաք ավելի բնական զրույց վարել ձեր համակարգչի հետ՝ շնորհիվ արհեստական ինտելեկտի (AI) հզորության:
Meta-ն ասաց, որ զգալի առաջընթաց է գրանցել արհեստական ինտելեկտի միջոցով ստեղծված ավելի իրատեսական խոսքի համակարգեր ստեղծելու ջանքերում: Ընկերության AI թիմը հայտնել է, որ առաջընթաց է գրանցել արտահայտիչ վոկալիզացիաներ մոդելավորելու ունակության մեջ, ինչպիսիք են ծիծաղը, հորանջելը և լացը, ի լրումն իրական ժամանակում «ինքնաբուխ զրույցի»::
«Ցանկացած խոսակցության ընթացքում մարդիկ փոխանակվում են ոչ վերբալ ազդանշաններով, ինչպիսիք են ինտոնացիաները, զգացմունքային արտահայտությունները, դադարները, շեշտադրումները, ռիթմերը, որոնք բոլորն էլ կարևոր են մարդկային փոխազդեցության համար», - գրել է թիմը բլոգի վերջին գրառման մեջ:. «Սակայն այսօրվա AI համակարգերը չեն կարողանում գրավել այս հարուստ, արտահայտիչ ազդանշանները, քանի որ նրանք սովորում են միայն գրավոր տեքստից, որն արտացոլում է այն, ինչ մենք ասում ենք, բայց ոչ այն, թե ինչպես ենք մենք ասում»::
Ավելի խելացի խոսք
Բլոգի գրառման մեջ Meta AI-ի թիմն ասաց, որ իրենք աշխատում են հաղթահարել ավանդական AI համակարգերի սահմանափակումները, որոնք չեն կարողանում հասկանալ խոսքի ոչ խոսքային ազդանշանները, ինչպիսիք են ինտոնացիաները, զգացմունքային արտահայտությունները, դադարները, շեշտադրումները և ռիթմերը:. Համակարգերը հետ են պահվում, քանի որ նրանք կարող են սովորել միայն գրավոր տեքստից:
Սակայն Meta-ի աշխատանքը տարբերվում է նախորդ ջանքերից, քանի որ նրա AI մոդելները կարող են օգտագործել բնական լեզվի մշակման մոդելներ՝ ֆիքսելու խոսակցական լեզվի ամբողջական բնույթը: Մետա հետազոտողները ասում են, որ նոր մոդելները կարող են թույլ տալ AI համակարգերին փոխանցել այն զգացմունքները, որոնք ցանկանում են փոխանցել, օրինակ՝ ձանձրույթ կամ հեգնանք:
«Մոտ ապագայում մենք կկենտրոնանանք տեքստային տեխնիկայի կիրառման վրա՝ օգտակար հավելվածներ ստեղծելու համար՝ չպահանջելով ոչ ռեսուրսներ ինտենսիվ տեքստային պիտակներ կամ խոսքի ավտոմատ ճանաչման համակարգեր (ASR), ինչպիսին է հարցերի պատասխանը (օրինակ՝ «Ինչպես է եղանակ?», - գրել է թիմը բլոգի գրառման մեջ: «Մենք հավատում ենք, որ խոսքի մեջ արձակագիրը կարող է օգնել ավելի լավ վերլուծել նախադասությունը, որն իր հերթին հեշտացնում է մտադրությունը և բարելավում է հարցերի պատասխանների կատարումը»:
AI Powers Comprehension
Համակարգիչները ոչ միայն ավելի լավ են դառնում իմաստը հաղորդելու հարցում, այլև AI-ն օգտագործվում է նաև խոսքի ճանաչման բարելավման համար:
Համակարգչային գիտնականները աշխատում են համակարգչային խոսքի ճանաչման վրա առնվազն 1952 թվականից, երբ Bell Labs-ի երեք հետազոտողներ ստեղծեցին համակարգ, որը կարող էր ճանաչել միայնակ թվանշանները, ասել է AI Dynamics-ի գլխավոր տեխնոլոգիական տնօրեն Ռայան Մոնսուրատը: Lifewire. 1990-ականներին խոսքի ճանաչման համակարգերը առևտրային հասանելի էին, բայց դեռևս ունեին սխալի մակարդակ, որը բավական բարձր էր, որպեսզի չխրախուսի օգտագործումը շատ հատուկ կիրառական տիրույթներից դուրս, ինչպիսին է առողջապահությունը::
«Այժմ, երբ խորը ուսուցման մոդելները հնարավորություն են տվել անսամբլային մոդելներին (ինչպես Microsoft-ի մոդելները) գերմարդկային կատարողականություն ձեռք բերել խոսքի ճանաչման հարցում, մենք ունենք տեխնոլոգիա՝ հնարավորություն տալու խոսակցից անկախ բանավոր հաղորդակցությունը համակարգիչների հետ մասշտաբով», - ասաց Մոնսուրատը: «Հաջորդ փուլը կներառի ծախսերի իջեցում, որպեսզի բոլորը, ովքեր օգտվում են Siri-ից կամ Google-ի AI օգնականներից, մուտք ունենան խոսքի ճանաչման այս մակարդակին»:
AI-ն օգտակար է խոսքի ճանաչման համար, քանի որ այն կարող է ժամանակի ընթացքում կատարելագործվել ուսուցման միջոցով, Lifewire-ին տված հարցազրույցում ասաց Արիել Ուտնիկը, AI ձայնային ընկերության Verbit.ai ընկերության եկամուտների գլխավոր տնօրենը և գլխավոր տնօրենը: Օրինակ՝ Verbit-ը պնդում է, որ իր ներքին AI տեխնոլոգիան հայտնաբերում և զտում է ֆոնային աղմուկը և արձագանքները և արտագրում բարձրախոսներին՝ անկախ շեշտից՝ կենդանի և ձայնագրված տեսանյութերից և աուդիոից մանրամասն, պրոֆեսիոնալ տառադարձումներ և ենթագրեր ստեղծելու համար:
Բայց Utnik-ն ասաց, որ խոսքի ճանաչման ներկայիս հարթակների մեծ մասը ճշգրիտ է միայն 75-80%-ով:
«AI-ը երբեք ամբողջությամբ չի փոխարինի մարդկանց, քանի որ վերծանողների, սրբագրողների և խմբագիրների անձնական ակնարկն անհրաժեշտ է բարձր որակի և բարձր ճշգրտության վերջնական տեքստ ապահովելու համար», - ավելացրեց նա:
Ձայնի ավելի լավ ճանաչումը կարող է օգտագործվել նաև հաքերներին կանխելու համար, ասել է ձայնի ճանաչման Mitek Systems ընկերության արտադրանքի և կորպորատիվ զարգացման փոխնախագահ Սանջայ Գուպտան էլ. Հետազոտությունները ցույց են տալիս, որ երկու տարվա ընթացքում հաշիվների գրավման բոլոր հաջող հարձակումների 20 տոկոսը կօգտագործի ձայնի սինթետիկ ուժեղացում, ավելացրեց նա:
«Սա նշանակում է, քանի որ խորը կեղծ տեխնոլոգիան դառնում է ավելի բարդ, մենք պետք է միաժամանակ ստեղծենք առաջադեմ անվտանգություն, որը կարող է պայքարել այս մարտավարությունների դեմ՝ պատկերների և տեսանյութերի խորը կեղծիքների կողքին», - ասաց Գուպտան: «Ձայնի կեղծման դեմ պայքարը պահանջում է աշխուժության հայտնաբերման տեխնոլոգիա, որը կարող է տարբերակել կենդանի ձայնը ձայնագրված, սինթետիկ կամ համակարգչային ստեղծած ձայնի տարբերակից»:
Ուղղում 2022-05-04. ուղղել է Ռայան Մոնսուրատի անվան ուղղագրությունը 9-րդ պարբերությունում: