Ինչպես AI-ն կարող է ավելի բնական դարձնել համակարգչային խոսքը

Բովանդակություն:

Ինչպես AI-ն կարող է ավելի բնական դարձնել համակարգչային խոսքը
Ինչպես AI-ն կարող է ավելի բնական դարձնել համակարգչային խոսքը
Anonim

Հիմնական տանողներ

  • Ընկերությունները մրցում են՝ գտնելու ուղիներ՝ համակարգչային ստեղծվող խոսքն ավելի իրատեսական դարձնելու համար:
  • NVIDIA-ն վերջերս ներկայացրել է գործիքներ, որոնք կարող են գրավել բնական խոսքի ձայնը՝ թույլ տալով մարզել արհեստական ինտելեկտը ձեր սեփական ձայնով:
  • Ինտոնացիան, էմոցիան և երաժշտականությունը այն հատկանիշներն են, որոնք դեռևս չունեն համակարգչային ձայները, ասում է փորձագետներից մեկը:
Image
Image

Համակարգչով ստեղծված խոսքը շուտով կարող է շատ ավելի մարդկային հնչել:

Համակարգչային մասեր արտադրող NVIDIA-ն վերջերս ներկայացրել է գործիքներ, որոնք կարող են գրավել բնական խոսքի ձայնը՝ թույլ տալով ձեզ վարժեցնել AI-ն ձեր ձայնով:Ծրագիրը կարող է նաև փոխանցել մեկ խոսողի խոսքերը՝ օգտագործելով մեկ այլ անձի ձայնը: Դա համակարգչային խոսքն ավելի իրատեսական դարձնելու աճող մղման մի մասն է:

«Ձայնային AI-ի առաջադեմ տեխնոլոգիան օգտատերերին թույլ է տալիս բնական խոսել՝ բազմաթիվ հարցումները միավորելով մեկ նախադասության մեջ և վերացնելով սկզբնական հարցումից մանրամասները անընդհատ կրկնելու անհրաժեշտությունը»,- Մայքլ Զագորսեկը՝ SoundHound խոսքի ճանաչման ընկերության գլխավոր օպերացիոն տնօրենը։, ասել է Lifewire-ը էլեկտրոնային հարցազրույցում:

«Բազմաթիվ լեզուների ավելացումը, որն այժմ հասանելի է ձայնային AI հարթակներում, թվային ձայնային օգնականներին հասանելի է դարձնում ավելի շատ աշխարհագրություններում և ավելի շատ բնակչության համար», - ավելացրեց նա:

Robospeech Rising

Amazon-ի Alexa-ն և Apple-ի Siri-ն շատ ավելի լավ են հնչում, քան նույնիսկ մեկ տասնամյակ առաջվա համակարգչային ելույթը, բայց շուտով դրանք չեն սխալվի իրական մարդկային ձայների հետ:

Արհեստական խոսքն ավելի բնական հնչելու համար NVIDIA-ի տեքստից խոսքի հետազոտական թիմը մշակել է RAD-TTS մոդելը: Համակարգը թույլ է տալիս անհատներին ուսուցանել տեքստից խոսքի (TTS) մոդելը իրենց ձայնով, ներառյալ տեմպը, տոնայնությունը, տեմբրը և այլ գործոններ:

Ընկերությունն օգտագործել է իր նոր մոդելը՝ իր I Am AI տեսաշարի համար ավելի խոսակցական ձայնային պատմվածք ստեղծելու համար:

«Այս ինտերֆեյսի միջոցով մեր տեսահոլովակ արտադրողը կարող է ինքն իրեն ձայնագրել՝ կարդալով տեսանյութի սցենարը և այնուհետև օգտագործել AI մոդելը՝ իր խոսքը վերածելու կին պատմողի ձայնի: ձայնային դերասան՝ սինթեզված խոսքի ճշգրտումը՝ հատուկ բառեր ընդգծելու համար և փոխելով պատմվածքի տեմպը՝ տեսանյութի տոնայնությունն ավելի լավ արտահայտելու համար»,- գրել է NVIDIA-ն իր կայքում։

Ավելի դժվար, քան թվում է

Համակարգչով ստեղծված խոսքի բնական հնչյունավորումը բարդ խնդիր է, ասում են փորձագետները:

«Դուք պետք է ձայնագրեք ինչ-որ մեկի ձայնը հարյուրավոր ժամեր, որպեսզի ստեղծեք դրա համակարգչային տարբերակը»,- Lifewire-ին տված հարցազրույցում ասել է Նազիմ Ռագիմովը՝ տեքստային խոսքի ծրագրային ապահովման ընկերության գործադիր տնօրեն Kukarella: «Իսկ ձայնագրությունը պետք է լինի որակյալ, ձայնագրված պրոֆեսիոնալ ստուդիայում։Որքան շատ ժամեր բեռնված և մշակված որակյալ խոսք, այնքան ավելի լավ կլինի արդյունքը։"

Տեքստը-խոսքը կարող է օգտագործվել խաղերի մեջ, օգնելու ձայնային խանգարումներ ունեցող անձանց կամ օգնելու օգտատերերին թարգմանել լեզուները իրենց ձայնով:

Ինտոնացիան, էմոցիան և երաժշտականությունը այն հատկանիշներն են, որոնք դեռևս բացակայում են համակարգչային ձայներին, ասել է Ռագիմովը:

Եթե արհեստական ինտելեկտը կարողանա ավելացնել այս բացակայող օղակները, համակարգչային ստեղծած խոսքը «չի տարբերվի իրական դերասանների ձայնից», - ավելացրեց նա: «Դա ընթացքի մեջ է: Մյուս ձայները կկարողանան մրցել ռադիոհաղորդավարների հետ: Շուտով դուք կտեսնեք ձայներ, որոնք կարող են երգել և կարդալ աուդիոգրքեր»:

Խոսքի տեխնոլոգիան դառնում է ավելի տարածված բիզնեսների լայն շրջանակում:

«Ավտոմոբիլային արդյունաբերությունը վերջերս ընդունեց ձայնային AI-ն՝ որպես ավելի անվտանգ և կապակցված վարորդական փորձառություններ ստեղծելու միջոց», - ասաց Զագորսեկը:

«Այդ ժամանակից ի վեր ձայնային օգնականները դառնում են ավելի ու ավելի համատարած, քանի որ բրենդները ուղիներ են փնտրում բարելավելու հաճախորդների փորձը և բավարարելու իրենց արտադրանքի և ծառայությունների հետ շփվելու ավելի հեշտ, անվտանգ, ավելի հարմար, արդյունավետ և հիգիենիկ մեթոդների պահանջարկը»:

Սովորաբար, ձայնային AI-ն հարցումները փոխակերպում է պատասխանների երկքայլ գործընթացով, որը սկսվում է խոսքի տեքստի վերծանմամբ՝ օգտագործելով խոսքի ավտոմատ ճանաչման (ASR) և այնուհետև այդ տեքստը մատակարարելով բնական լեզվի ըմբռնման (NLU) մոդելի:

Image
Image

SoundHound-ի մոտեցումը միավորում է այս երկու քայլերը մեկ գործընթացում՝ իրական ժամանակում խոսքին հետևելու համար: Ընկերությունը պնդում է, որ այս տեխնիկան թույլ է տալիս ձայնային օգնականներին հասկանալ օգտատերերի հարցումների իմաստը, նույնիսկ նախքան անձը կավարտի խոսելը:

Համակարգչային խոսքի ապագա զարգացումները, ներառյալ միացման մի շարք տարբերակների առկայությունը՝ միայն ներկառուցվածից (ամպային կապ չի պահանջվում) մինչև հիբրիդ (ներկառուցված գումարած ամպ) և միայն ամպային «ավելի մեծ ընտրություն կտա ընկերություններին տարբեր ոլորտներում: ծախսերի, գաղտնիության և վերամշակող հզորության առկայության առումով», - ասաց Զագորեսկը:

NVIDIA-ն ասաց, որ իր նորությունների արհեստական ինտելեկտի մոդելները դուրս են գալիս ձայնային աշխատանքի սահմաններից:

«Տեքստը-խոսքը կարող է օգտագործվել խաղերում, օգնելու ձայնային խանգարումներ ունեցող անձանց կամ օգնելու օգտատերերին թարգմանել լեզուների միջև իրենց ձայնով», - գրել է ընկերությունը: «Այն կարող է նույնիսկ վերստեղծել խորհրդանշական երգիչների կատարումները՝ համապատասխանեցնելով ոչ միայն երգի մեղեդին, այլև վոկալի հետևում գտնվող զգացմունքային արտահայտությանը»:

Խորհուրդ ենք տալիս: