Ինչպես AI-ն կարող է ավելի բնական դարձնել համակարգչային խոսքը

👤 Հեղինակ Abigail Brown 📧 brown@technologyhumans.com.
⏱ Public 2023-12-17 06:51.
🖍 Վերջին փոփոխված 2025-01-24 12:12.

Հիմնական տանողներ

Ընկերությունները մրցում են՝ գտնելու ուղիներ՝ համակարգչային ստեղծվող խոսքն ավելի իրատեսական դարձնելու համար:
NVIDIA-ն վերջերս ներկայացրել է գործիքներ, որոնք կարող են գրավել բնական խոսքի ձայնը՝ թույլ տալով մարզել արհեստական ինտելեկտը ձեր սեփական ձայնով:
Ինտոնացիան, էմոցիան և երաժշտականությունը այն հատկանիշներն են, որոնք դեռևս չունեն համակարգչային ձայները, ասում է փորձագետներից մեկը:

Համակարգչով ստեղծված խոսքը շուտով կարող է շատ ավելի մարդկային հնչել:

Համակարգչային մասեր արտադրող NVIDIA-ն վերջերս ներկայացրել է գործիքներ, որոնք կարող են գրավել բնական խոսքի ձայնը՝ թույլ տալով ձեզ վարժեցնել AI-ն ձեր ձայնով:Ծրագիրը կարող է նաև փոխանցել մեկ խոսողի խոսքերը՝ օգտագործելով մեկ այլ անձի ձայնը: Դա համակարգչային խոսքն ավելի իրատեսական դարձնելու աճող մղման մի մասն է:

«Ձայնային AI-ի առաջադեմ տեխնոլոգիան օգտատերերին թույլ է տալիս բնական խոսել՝ բազմաթիվ հարցումները միավորելով մեկ նախադասության մեջ և վերացնելով սկզբնական հարցումից մանրամասները անընդհատ կրկնելու անհրաժեշտությունը»,- Մայքլ Զագորսեկը՝ SoundHound խոսքի ճանաչման ընկերության գլխավոր օպերացիոն տնօրենը։, ասել է Lifewire-ը էլեկտրոնային հարցազրույցում:

«Բազմաթիվ լեզուների ավելացումը, որն այժմ հասանելի է ձայնային AI հարթակներում, թվային ձայնային օգնականներին հասանելի է դարձնում ավելի շատ աշխարհագրություններում և ավելի շատ բնակչության համար», - ավելացրեց նա:

Robospeech Rising

Amazon-ի Alexa-ն և Apple-ի Siri-ն շատ ավելի լավ են հնչում, քան նույնիսկ մեկ տասնամյակ առաջվա համակարգչային ելույթը, բայց շուտով դրանք չեն սխալվի իրական մարդկային ձայների հետ:

Արհեստական խոսքն ավելի բնական հնչելու համար NVIDIA-ի տեքստից խոսքի հետազոտական թիմը մշակել է RAD-TTS մոդելը: Համակարգը թույլ է տալիս անհատներին ուսուցանել տեքստից խոսքի (TTS) մոդելը իրենց ձայնով, ներառյալ տեմպը, տոնայնությունը, տեմբրը և այլ գործոններ:

Ընկերությունն օգտագործել է իր նոր մոդելը՝ իր I Am AI տեսաշարի համար ավելի խոսակցական ձայնային պատմվածք ստեղծելու համար:

«Այս ինտերֆեյսի միջոցով մեր տեսահոլովակ արտադրողը կարող է ինքն իրեն ձայնագրել՝ կարդալով տեսանյութի սցենարը և այնուհետև օգտագործել AI մոդելը՝ իր խոսքը վերածելու կին պատմողի ձայնի: ձայնային դերասան՝ սինթեզված խոսքի ճշգրտումը՝ հատուկ բառեր ընդգծելու համար և փոխելով պատմվածքի տեմպը՝ տեսանյութի տոնայնությունն ավելի լավ արտահայտելու համար»,- գրել է NVIDIA-ն իր կայքում։

Ավելի դժվար, քան թվում է

Համակարգչով ստեղծված խոսքի բնական հնչյունավորումը բարդ խնդիր է, ասում են փորձագետները:

«Դուք պետք է ձայնագրեք ինչ-որ մեկի ձայնը հարյուրավոր ժամեր, որպեսզի ստեղծեք դրա համակարգչային տարբերակը»,- Lifewire-ին տված հարցազրույցում ասել է Նազիմ Ռագիմովը՝ տեքստային խոսքի ծրագրային ապահովման ընկերության գործադիր տնօրեն Kukarella: «Իսկ ձայնագրությունը պետք է լինի որակյալ, ձայնագրված պրոֆեսիոնալ ստուդիայում։Որքան շատ ժամեր բեռնված և մշակված որակյալ խոսք, այնքան ավելի լավ կլինի արդյունքը։"

Տեքստը-խոսքը կարող է օգտագործվել խաղերի մեջ, օգնելու ձայնային խանգարումներ ունեցող անձանց կամ օգնելու օգտատերերին թարգմանել լեզուները իրենց ձայնով:

Ինտոնացիան, էմոցիան և երաժշտականությունը այն հատկանիշներն են, որոնք դեռևս բացակայում են համակարգչային ձայներին, ասել է Ռագիմովը:

Եթե արհեստական ինտելեկտը կարողանա ավելացնել այս բացակայող օղակները, համակարգչային ստեղծած խոսքը «չի տարբերվի իրական դերասանների ձայնից», - ավելացրեց նա: «Դա ընթացքի մեջ է: Մյուս ձայները կկարողանան մրցել ռադիոհաղորդավարների հետ: Շուտով դուք կտեսնեք ձայներ, որոնք կարող են երգել և կարդալ աուդիոգրքեր»:

Խոսքի տեխնոլոգիան դառնում է ավելի տարածված բիզնեսների լայն շրջանակում:

«Ավտոմոբիլային արդյունաբերությունը վերջերս ընդունեց ձայնային AI-ն՝ որպես ավելի անվտանգ և կապակցված վարորդական փորձառություններ ստեղծելու միջոց», - ասաց Զագորսեկը:

«Այդ ժամանակից ի վեր ձայնային օգնականները դառնում են ավելի ու ավելի համատարած, քանի որ բրենդները ուղիներ են փնտրում բարելավելու հաճախորդների փորձը և բավարարելու իրենց արտադրանքի և ծառայությունների հետ շփվելու ավելի հեշտ, անվտանգ, ավելի հարմար, արդյունավետ և հիգիենիկ մեթոդների պահանջարկը»:

Սովորաբար, ձայնային AI-ն հարցումները փոխակերպում է պատասխանների երկքայլ գործընթացով, որը սկսվում է խոսքի տեքստի վերծանմամբ՝ օգտագործելով խոսքի ավտոմատ ճանաչման (ASR) և այնուհետև այդ տեքստը մատակարարելով բնական լեզվի ըմբռնման (NLU) մոդելի:

SoundHound-ի մոտեցումը միավորում է այս երկու քայլերը մեկ գործընթացում՝ իրական ժամանակում խոսքին հետևելու համար: Ընկերությունը պնդում է, որ այս տեխնիկան թույլ է տալիս ձայնային օգնականներին հասկանալ օգտատերերի հարցումների իմաստը, նույնիսկ նախքան անձը կավարտի խոսելը:

Համակարգչային խոսքի ապագա զարգացումները, ներառյալ միացման մի շարք տարբերակների առկայությունը՝ միայն ներկառուցվածից (ամպային կապ չի պահանջվում) մինչև հիբրիդ (ներկառուցված գումարած ամպ) և միայն ամպային «ավելի մեծ ընտրություն կտա ընկերություններին տարբեր ոլորտներում: ծախսերի, գաղտնիության և վերամշակող հզորության առկայության առումով», - ասաց Զագորեսկը:

NVIDIA-ն ասաց, որ իր նորությունների արհեստական ինտելեկտի մոդելները դուրս են գալիս ձայնային աշխատանքի սահմաններից:

«Տեքստը-խոսքը կարող է օգտագործվել խաղերում, օգնելու ձայնային խանգարումներ ունեցող անձանց կամ օգնելու օգտատերերին թարգմանել լեզուների միջև իրենց ձայնով», - գրել է ընկերությունը: «Այն կարող է նույնիսկ վերստեղծել խորհրդանշական երգիչների կատարումները՝ համապատասխանեցնելով ոչ միայն երգի մեղեդին, այլև վոկալի հետևում գտնվող զգացմունքային արտահայտությանը»:

Խորհուրդ ենք տալիս:

Ինչպես AI-ն կարող է ավելի բնական դարձնել համակարգչային խոսքը

Բովանդակություն:

Հիմնական տանողներ

Robospeech Rising

Ավելի դժվար, քան թվում է

Խորհուրդ ենք տալիս:

AR-ը կարող է ավելի հեշտ և ավելի քիչ սթրեսային դարձնել տանը վերանորոգումը

Համակարգչային նոր չիպերը կարող են ավելի շատ մշակել այնպես, ինչպես դա անում է ձեր ուղեղը

Ինչպես Android 12 Go-ն կարող է ավելի լավը դարձնել ձեր գերէժան հեռախոսը

Ինչպես AI-ն կարող է ավելի արագ կառուցել համակարգչային չիպեր

Թեթև, ավելի փոքր ականջակալները կարող են VR-ն ավելի խորը դարձնել

Լույսի լամպերը կարող են օգնել հզոր քվանտային համակարգիչներին

Ինչպես մուտք գործել HBO Max Roku-ով

Ինչպես վերականգնել ձեր Roku հեռակառավարումը

Ինչպես անջատել VoiceOver-ը Mac-ում

Սպիտակ տան մանրամասները ցածր գնով ինտերնետի նոր պլանի մասին

2022-ի 7 լավագույն ակնթարթային տեսախցիկները

Xbox նվաճումների վերջնական ուղեցույց

Ինչպես խմբավորել հաղորդագրությունները Mozilla Thunderbird-ում

Ինչպես կիսվել էկրանով Mac-ում

Tinder-ն ավելացնում է կոնտակտներն արգելափակելու տարբերակ

Կատարեք բազմաթիվ հաշվարկներ Excel զանգվածի բանաձևերով

MAC հասցեի զտում. ինչ է դա և ինչպես է այն աշխատում

Կարաոկե ԱՄՆ-ի ակնարկ. Վայելեք ժամերով կարաոկե զվարճանք 150 դոլարից ցածր գնով

Ինչու երբեք չպետք է գնել iPhone-ի ապահովագրություն. 6 պատճառ

ION Audio Tailgater Plus ակնարկ. վայելեք ժամեր անխափան, բասի ուժեղացված ձայնը կոճակի սեղմումով