Yapay zeka: üretilen ilk atış yolunda

Adanali

Member
(Bu makale Almanca olarak da mevcuttur)


Şimdiye kadar, AI programları yalnızca kullanıma hazır arka plan müziği sağladı, ancak bu değişebilir: AI araştırmacıları, laboratuvarlarında daha geniş bir repertuara ve daha iyi müzik anlayışına sahip akıllı algoritmalar üzerinde çalışıyorlar. Sonunda, AI tüm operaları besteleyebilir veya bir sonraki büyük hiti kaleme alabilir.

Her şeyden önce, geliştiriciler temel olarak kısa metin talimatlarında yeni bir parça doğaçlama yapan ve onu bir ses dosyası olarak çalan bir yapay zeka ile ilgileniyorlar. Demoların ses kalitesi onlar için hala büyük bir rol oynamıyor.

Riffusion ve MusikLM, Google’ın ilk olarak Ocak ayı sonlarında tanıttığı iki popüler yaklaşımdır. Riffusion, iki geliştirici Seth Forsgren ve Hayk Martiros’un bir hobi projesidir. Metin açıklamalarını (sözde bilgi istemleri, örneğin “at sırtında astronot”) karmaşık görüntülere dönüştüren, iyi bilinen AI görüntüsü Stable Diffusion’a dayanır.


Gürültü içinde şekillendirilmiş


Ek olarak, Kararlı Difüzyon, gürültüden (Gaussian gürültüsü) tutarlı desenler üretir. Eğitim için geliştiriciler, orijinal bir görüntüye kademeli olarak parazit ekledi ve derin öğrenme algoritması ile orijinal durumuna geri yükledi. Bunu internetten açıklamalı sayısız görselle tekrarladılar. Son olarak, difüzyon modelini büyük bir dil modeliyle birleştirerek yapay zekanın metin talimatlarındaki gürültüden hemen hemen her modeli oluşturmasına olanak sağladılar.

Riffusion, gürültüden müzik için spektrogramları hesaplamak için bu prensibi kullanır. Görüntüler, x ekseninde zaman akışını ve y ekseninde frekans dağılımını gösterir: üstte daha yüksek tonlar, altta daha düşük tonlar. Maviden kırmızıya renkler veya beyazdan siyaha gri tonları ilgili hacmi temsil eder. Oynatma sırasında, yazılım çizilmiş spektrogramları müziğe dönüştürür.


Bunu yapmak için, iki geliştirici Riffusion’ı çeşitli ücretsiz müzik koleksiyonlarının spektrogramları ve ilişkili metin açıklamaları ile eğitti. Yazılım, pürüzsüz bir caz piyano ve kontrbas parçasının spektrogramının neye benzediğini ve bunun bir heavy metal gitar solosundan nasıl farklı olduğunu bu şekilde öğrendi.




Riffusion, sesi şarkı sözlerinin talimatlarıyla değişen sonsuz bir müzik karışımı üretir.



Riffusion, sesi şarkı sözlerinin talimatlarıyla değişen sonsuz bir müzik karışımı üretir.



Sonuç olarak, riffusion.com web sitesindeki program, sanki bir DJ yeni bir tarza geçiyormuş gibi, İngilizce şarkı sözlerinin talimatlarına göre yavaşça değişen sonsuz bir müzik karışımı sunuyor. Geçişler orada burada zıplamaya devam ediyor ve şarkı sadece anlaşılmaz seslerden oluşuyor. Bununla birlikte, yapay zekanın bir disko ritminin bir piyano solosundan ne kadar farklı olduğuna dair bir fikri var.



Bununla birlikte, ses kalitesi düşüktür: gürültüsüz spektrogramlar yalnızca 1024×1024 pikselden oluştuğu için, oluşturulan izler çok düşük bir bit hızında kodlanmış gibi görünür. Riffusion, bu yeni hesaplanan spektrogramların birçoğunu arka arkaya dondursa da yapay zeka, frekans spektrumunu yalnızca 1024 banda bölebiliyor.



Müzik için ChatGPT


Ocak ayı sonlarında Google, metin girişi veya önceden mırıldanılmış bir melodiye dayalı olarak müzik üretmeyi amaçlayan MusicLM’yi tanıttı. Eğitim için geliştiriciler, diğer araştırmacıların da kullanımına sundukları 5.500 müzik-metin çiftinden oluşan bir veri seti kullandılar: Müzik referansları, uzmanlar tarafından indekslenmiş YouTube bağlantılarından oluşuyor.

Riffusion gibi, MusicLM de kullanıcının metin özelliklerine göre bildiği ses malzemesini üretir. Buradaki müzikal çeşitlilik dikkat çekicidir. Bununla birlikte, daha önce yayınlanan demolardaki tematik fikirleri de kaçırdık – parçalar dakikalarca dalgalandı. Şarkılar, SoundStream codec bileşeninde 24kHz’de ve 6kbps’lik bir bit hızında kodlanmıştır, bu da onları sıkıştırma yapaylıkları olan bir telefon yayını gibi seslendirir.

ayrıca oku

Daha fazla göster



daha az göster




Araştırmacıların, bu ilginç yapay zeka yaklaşımlarının, müzisyenleri günlük işlerinde destekleyen ve hatta ilham veren ciddi ticari hizmetler haline gelmesinden önce yapacak çok işi var: Yapay zekalar akılda kalıcı melodiler yazmalı ve bunları çeşitlendirmeli, şarkı yapılarını ve dinamik gelişmeleri dahil etmeli ve Son ama değil. en azından ses kalitesi önemli ölçüde artar. Çinli Baidu bilim adamları da ERNIE müzik sistemleri için bu tür çözümler arıyorlar.



c't Magazine'den daha fazlası



c't Magazine'den daha fazlası








(Resim:

6/2023 var

)



Raspberry Pi’yi bulmak hala zor ama aynı zamanda bir fırsat da olabilir! c’6/2023’te x86, ESP ve NanoPi teknolojisiyle Raspi’den daha iyi çalışan dört somut (ağ) tasarımı sunuyoruz. c’t-KeyFinder ile Windows’tan tüm kurulum anahtarlarını çıkarın ve paradan, zamandan ve Microsoft dolandırıcılığından tasarruf edin. Ayrıca yapay zeka ile müzik besteledik, zarif Linux dağıtımı Elementary OS 7’yi test ettik ve Ryzen 7000U ile çekici bir mini PC oluşturduk. İnternet bağlantınız kesildiğinde bile yardım var: Üzerinde anlaşılan veri hızlarına ilişkin hakkınızı nasıl uygulayabileceğinizi gösteremiyoruz. Bunu ve daha fazlasını c’t 6/23’te okuyabilirsiniz!








(cadı)



Haberin Sonu
 
Üst