AI Resimleri Açıklıyor: Microsoft’un Kosmos-1’i görsel bulmacaları çözüyor

Adanali

Member


  1. AI Resimleri Açıklıyor: Microsoft’un Kosmos-1’i görsel bulmacaları çözüyor

Microsoft, görsel ve dil özelliklerine sahip Çok Modlu Büyük Dil Modeli (MLLM) olan Kosmos-1’i tanıttı. Kosmos-1’in resimli bulmacaları çözebildiği, resimli metni tanıyabildiği, görsel zeka testlerini geçebildiği ve doğal dil talimatlarını takip edebildiği söyleniyor. Çok modlu özellik, bir modelin farklı algı ve temsil türlerinden gelen girdileri tanıma ve bunu bağlam içinde kavrama yeteneğini ifade eder.


Bireysel modaliteler, uzayda yazılı metin, sözlü söylem, görüntüler, sesler, dokunsal izlenimler ve motor hareketler olacaktır. Koku alma izlenimlerini “koklama”, yorumlama ve çevirme bile bir modalite olabilir ve temsili makine öğrenimindeki izole projelerde araştırılmaktadır. Kosmos-1, bu tür iki modu birleştirir: doğal dile ek olarak, görüntü katmanı ve onun bağlamsal bağlantısı.

MLLM: Bir tür dünya modeli yaratın


Yapay zekadaki en heyecan verici gelişmeler şu anda art arda birleştirilmekte olan farklı modalitelerin kesişme noktasında gerçekleşiyor: Tek başına ele alındığında, makine öğrenimi modellerindeki bu yetenekler yeni değil. Şimdiye kadar (Microsoft) OpenAI, Stable Diffusion veya Midjourney’den DALL E gibi metin yönergeleri üzerinde görüntüler oluşturan model sınıfları ve farklı satıcılardan gelen ve sayıları giderek artan AI sohbet robotları gibi metin oluşturucular bir insan üzerinde dil işliyor. “anlayın” ve üretin. Bu yöntemlerin birçoğunun tek bir modelde artan bağlantısı yenidir. Bu yapay sinir ağları dünyamızın giderek daha fazla yüzünü temsil ettiğinden, bazen dünyanın bilgisinden ve “dünya modellerinden” bahsediyoruz. Microsoft ekibi de raporunda Kosmos-1’i açıklamak için Dünya Modeli terimini kullanıyor (yeni model serisinin adı da buna göre seçiliyor).




Çok Modlu Büyük Dil Modeli (MLLM)



Çok Modlu Büyük Dil Modeli: Kosmos-1, görsel ve dilsel girdiyi bir arada anlar


(Resim: Microsoft)



Bilgisayar görüşünün büyük dil modellerinin geniş yetenek yelpazesiyle birleşimi, istatistiksel yöntemlerle insan algısının giderek daha fazla alanına nüfuz eden dönüştürücü yapay zekaya doğru bir adım olarak görülüyor. Metin yönergeleri üzerinde görüntü, ses, ses ve müzik oluşturulması da bu alana girer. Microsoft-OpenAI yılın başında VALL E’yi sundu, Google AudioLM ve MusicLM ile çıktı ve bu yıl ses ve konuşma sentezinin yanı sıra ‘yapay zeka’ kullanarak ses analizi ve üretimi alanında birkaç başka proje ortaya çıktı.


Çoklu görev için becerileri birleştirin



Google ve DeepMind gibi sağlayıcılar da çok modluluk yönünde kapsamlı araştırmalar yürütüyor: Mayıs 2022’de Google yan kuruluşu DeepMind, çok görevli yapay zeka ajanı Gato’yu sundu. Gato, uzayda bir robotun kontrolüne potansiyel olarak izin verebilecek uzamsal ve dokunsal yönleri birleştirir. DeepMind, ajanı sembolik bir robot kedi imajıyla tanıtmıştı ve dağınık yaklaşımlar çoklu görevle ilgiliydi. Doğal zekaya yaklaşmak için, sadece konuşmadan daha ‘algısal’ becerilere ihtiyaç vardır ve uzayda yönlendirme ve komutları dokunsal ve motor unsurlarla takip etme, uzun vadede endüstri gibi birçok sektör için de geçerli olmalıdır. Bu modelleri eğitirken, örneğin sözlü bilgi görsel veya dokunsal alana aktarıldığında, “modlar arası” bir bilgi aktarımı olur.

Kendi açıklamalarına göre Microsoft ortağı OpenAI gibi araştırma firmaları “yapay genel zeka” (AGI) için kampanya yürütüyor. Bu kadar geniş ve genel bir yapay zekayı hedefleyen herkes, şu anda modellerde farklı algı kanallarını birleştirmek için çalışıyor. Multimodalite, Microsoft veya OpenAI’nin bir icadı değildir. Alman yapay zeka şirketi Aleph Alpha gibi diğer tedarikçiler, görüntüleri ve metinleri herhangi bir kombinasyonda ve bağlamda “anlayan”, açıklayan, değerlendiren ve daha fazla işleyen MAGMA ve Luminous serileri ile modelleri zaten sundu. Şablon aileleri, Microsoft ekibi tarafından kullanılan anlamda bir “MLLM”dir.




Örnek alınan



Raven’s Test: Kosmos-1’in başlangıçta orta düzeyde sonuçlarla geçtiği görsel IQ testinden bir örnek.


(Resim: Microsoft, “İhtiyacınız Olan Tek Şey Dil Değildir: Algıyı Dil Kalıplarıyla Hizalamak”)



Kosmos-1: Raven’ın IQ testi ve eğitim verileri


Microsoft ekibine göre Kosmos-1 eğitim verileri, metin derlemleri, sözcük-görüntü çiftleri ve görüntü ile metni birleştiren materyaller gibi çok modlu veri koleksiyonlarını içerir. Görüntülerle ilgili olarak, diğer şeylerin yanı sıra LAION veri kümeleri kullanıldı, ancak görünüşe göre yalnızca İngilizce olarak etiketlenmiş görüntüler dikkate alındı. Metne gelince, diğer şeylerin yanı sıra, “The Pile” adlı 800 GB İngilizce metin tabanından ve büyük dil modelleri için olağan olan İnternetten Ortak Tarama’dan alıntılar vardı. Eğitim verilerinin detayları arxiv belgesinin ekinde bulunabilir.

Rapora göre ekip, önceden eğitilmiş modeli çeşitli testlere tabi tuttu ve görüntü sınıflandırma, görüntü içeriğiyle ilgili soruları yanıtlama, otomatik görüntü etiketleme, optik metin tanıma ve ses oluşturmada iyi sonuçlar aldı. Ekibe göre, Kosmos-1’in bir tür görsel IQ testi olan Raven’s Progressive Reasoning’deki (RPR) oldukça ılımlı performansı şaşırtıcı. Bunu yaparken, sınava girenler şekil dizilerini mantıksal olarak anlamlı bir şekilde entegre etmelidir. Burada, Kosmos-1 zamanın yalnızca %22’sinde haklıydı. Gazete, ekibin bunun nedenlerini hala araştırdığını söyledi.

ayrıca oku

Daha fazla göster



daha az göster



Resimsel muhakemeyi derinleştirin


Araştırma ekiplerinin raporlarında açıkladığı gibi, görsel muhakeme, yani dili bir ara adım olarak kullanmadan görüntüler hakkında sonuçlar çıkarmak, burada bir anahtar gibi görünüyor. Microsoft’un yakın tarihli araştırma makalesi, “Dil İhtiyacınız Olan Her Şey Değildir: Algıyı Dil Modelleri ile Hizalamak”, modelin görsel ve dilsel yeteneklerini birleştirmek için kullanılan teknikler hakkında bilgi sağlar.

O zamanki ComputerVision Group’tan Heidelberg çevre araştırmacıları (bu arada Stable Diffusion’dan da geliyor) ve Aleph Alpha, bildiğimiz kadarıyla üretken AI modellerinin zenginleştirilebileceği (artırılmış) bir yöntemi 2021’de ilk yayınlayanlardı. çok modlu yeteneklere sahip olanlar: “MAGMA – Bağdaştırıcı Tabanlı İnce Ayar Yoluyla Üretken Modellerin Çok Modlu Artırılması”. Haberler geliştiricisi kaynak kodu, model haritası ve ağırlıkları geçen bahardan beri GitHub’da açık kaynak olarak bulunan ilişkili AI arama modeli hakkında rapor vermişti.


(onun)



Haberin Sonu
 
Üst