Շուտով դուք չեք կարող իմանալ, որ խոսում եք համակարգչի հետ

Բովանդակություն:

Շուտով դուք չեք կարող իմանալ, որ խոսում եք համակարգչի հետ
Շուտով դուք չեք կարող իմանալ, որ խոսում եք համակարգչի հետ
Anonim

Հիմնական տանողներ

  • Շուտով մոտենում է այն օրը, երբ դուք չեք կարողանա տարբերել համակարգչի կողմից ստեղծված խոսքը իրականից:
  • Google-ը վերջերս ներկայացրել է LaMDA մոդելը, որը կարող է ավելի բնական խոսակցություններ թույլ տալ:
  • Մարդանման խոսքի արտադրությունը նույնպես պահանջում է հսկայական մշակման ուժ:
Image
Image

Այս պահին հեշտ է հասկանալ, թե երբ եք խոսում համակարգչի հետ, բայց դա շուտով կարող է փոխվել՝ շնորհիվ AI-ի վերջին առաջընթացների:

Google-ը վերջերս ներկայացրեց LaMDA-ն՝ փորձարարական մոդելը, որը, ըստ ընկերության, կարող է բարձրացնել իր խոսակցական AI օգնականների կարողությունները և թույլ տալ ավելի բնական խոսակցություններ:LaMDA-ն նպատակ ունի ի վերջո նորմալ խոսել գրեթե ամեն ինչի մասին՝ առանց որևէ նախնական վերապատրաստման:

Սա AI-ի աճող թվով նախագծերից մեկն է, որը կարող է ձեզ մտածել, թե արդյոք խոսում եք մարդու հետ:

«Իմ գնահատականն այն է, որ առաջիկա 12 ամիսների ընթացքում օգտատերերը կսկսեն ծանոթանալ և ընտելանալ այս նոր, ավելի զգացմունքային ձայներին», - Ջեյմս Կապլան՝ MeetKai-ի գործադիր տնօրեն, խոսակցական AI վիրտուալ ձայնային օգնական և որոնում։ շարժիչը, ասվել է էլեկտրոնային փոստի հարցազրույցում:

«Հենց դա տեղի ունենա, այսօրվա սինթեզված խոսքը օգտատերերի համար կհնչի այնպես, ինչպես 2000-ականների սկզբի խոսքը հնչում է մեզ այսօր»:

Ձայնային օգնականներ բնավորությամբ

Google-ի LaMDA-ն կառուցված է Transformer-ի՝ նեյրոնային ցանցի ճարտարապետության վրա, որը հորինել է Google Research-ը: Ի տարբերություն այլ լեզուների մոդելների, Google-ի LaMDA-ն վերապատրաստվել է իրական երկխոսության վրա:

Բնական հնչեղությամբ արհեստական ինտելեկտի խոսք ստեղծելու մարտահրավերի մի մասը խոսակցությունների բաց բնույթն է, գրել է Google-ի Էլի Քոլինզը բլոգի գրառման մեջ:

Image
Image

«Ընկերոջ հետ զրույցը հեռուստահաղորդման մասին կարող է վերածվել քննարկման երկրի մասին, որտեղ նկարահանվել է հաղորդումը, նախքան այդ երկրի լավագույն տարածաշրջանային խոհանոցի մասին բանավեճը լուծելը», - ավելացրեց նա::

Ռոբոտի խոսքի հետ ամեն ինչ արագ է ընթանում: Էրիկ Ռոզենբլումը, Tsingyuan Ventures-ի կառավարիչ գործընկերը, որը ներդրումներ է կատարում խոսակցական AI-ի մեջ, ասում է, որ համակարգչային օգնությամբ խոսքի ամենահիմնական խնդիրներից մի քանիսը գործնականում լուծված են:

Օրինակ, խոսքի ըմբռնման ճշգրտության մակարդակն արդեն չափազանց բարձր է այնպիսի ծառայություններում, ինչպիսիք են Otter.ai ծրագրաշարի տառադարձումները կամ DeepScribe-ի կողմից արված բժշկական նշումները:

«Հաջորդ սահմանը, սակայն, շատ ավելի դժվար է», - ավելացրեց նա:

«Համատեքստի ըմբռնումը պահպանելը, որը խնդիր է, որը գերազանցում է բնական լեզվի մշակումը, և կարեկցանքը, ինչպես, օրինակ, մարդկանց հետ շփվող համակարգիչները պետք է հասկանան հիասթափությունը, զայրույթը, անհամբերությունը և այլն:Այս երկու հարցերի վրա էլ աշխատանքներ են տարվում, բայց երկուսն էլ բավական հեռու են բավարար լինելուց»:

Նյարդային ցանցերը բանալին են

Կյանքի նմանվող ձայներ ստեղծելու համար ընկերությունները օգտագործում են տեխնոլոգիաներ, ինչպիսիք են խորը նեյրոնային ցանցերը, մեքենայական ուսուցման մի ձև, որը դասակարգում է տվյալները շերտերի միջոցով, Մեթ Մալդուն, Հյուսիսային Ամերիկայի նախագահ ReadSpeaker-ում, մի ընկերություն, որը մշակում է տեքստից խոսք ծրագրակազմ, ասել է էլեկտրոնային փոստով տված հարցազրույցում:

«Այս շերտերը ճշգրտում են ազդանշանը՝ դասակարգելով այն ավելի բարդ դասակարգումների», - ավելացրեց նա: «Արդյունքը սինթետիկ խոսք է, որը հնչում է անսովոր մարդու նման»:

Զարգացման փուլում գտնվող ևս մեկ տեխնոլոգիա Prosody Transfer-ն է, որը ներառում է մեկ ձայնի տեքստից խոսքի ձայնը մյուսի խոսելաոճի հետ համատեղելը, ասաց Մալդունը: Գոյություն ունի նաև փոխանցման ուսուցում, որը նվազեցնում է ուսուցման տվյալների քանակը, որն անհրաժեշտ է նոր նյարդային տեքստից խոսքի ձայն ստեղծելու համար:

Կապլանն ասաց, որ մարդանման խոսք արտադրելը նաև ահռելի քանակությամբ մշակող ուժ է պահանջում: Ընկերությունները մշակում են նյարդային արագացուցիչի չիպեր, որոնք հատուկ մոդուլներ են, որոնք աշխատում են սովորական պրոցեսորների հետ համատեղ։

«Սրա հաջորդ փուլը կլինի այս չիպերի տեղադրումը ավելի փոքր սարքավորումների մեջ, քանի որ ներկայումս դա արդեն արված է տեսախցիկների համար, երբ տեսողության համար AI-ն պահանջվում է», - ավելացրեց նա: «Շատ չի անցնի, երբ այս տեսակի հաշվողական հնարավորությունները հասանելի կլինեն հենց ականջակալներում»:

AI-ի վրա հիմնված խոսքի զարգացման մարտահրավերներից մեկն այն է, որ բոլորը տարբեր կերպ են խոսում, ուստի համակարգիչները հակված են դժվարությամբ հասկանալ մեզ:

«Մտածեք Վրաստանն ընդդեմ Բոստոնի ընդդեմ Հյուսիսային Դակոտայի շեշտադրումների, և արդյոք անգլերենը ձեր հիմնական լեզուն է, թե ոչ», - ասաց Մոնիկա Դեման, ով աշխատում է MDinc-ում ձայնային որոնման վերլուծության վրա: «Մտածելով գլոբալ, դա թանկ է դա անել Գերմանիայի, Չինաստանի և Հնդկաստանի բոլոր շրջանների համար, բայց դա չի նշանակում, որ դա չի կարելի կամ չի կարող անել»:

Խորհուրդ ենք տալիս: