“Microsoft” cəmi üç saniyəlik nümunə əsasında istənilən şəxsin
səsini təqlid edə bilən VALL-E adlı mətni nitqə çevirən neyron
şəbəkəsini yaradıb.
Digər insanların səslərinin müxtəlif vəziyyətlərdə necə
səsləndiyini bilən neyroşəbəkə eyni situasiyalarda “donorun”
nitqinin necə səslənəcəyini təxmin edir. Beləliklə, VALL-E təbii
intonasiyalarla nümunə daşıyıcısının səsini çox real şəkildə təqlid
edə bilir.
VALL-E-nin yaradılması zamanı EnCodec audio sıxılma texnologiyası
və ümumi müddəti təxminən 60 min saat olan 7 mindən çox insanın səs
yazıları kitabxanasından istifadə edilib. Hər iki məhsul “Meta”
korporasiyasına məxsusdur.
“Microsoft” şirkəti hesab edir ki, yeni neyron şəbəkə mətn əsasında
audio məzmunun yaradılması zamanı faydalı olacaq. Xüsusilə, VALL-E
tamamilə orijinal məzmun yaratmaq üçün GPT-3 mətn generatoru ilə
birlikdə istifadə edilə bilər.
Mənbə: oxu.az