LLaVA: LLaMA tabanlı çok modlu açık AI modeli, görüntüleri ve konuşmayı okur

Adanali · 22 Nis 2023

Microsoft ve iki ABD üniversitesinden dört kişilik bir araştırma ekibi LLaVA’yı yayımladı: The Large Language Visual Assistant, iyi bilinen AI sohbet sistemlerine dayanan çok modlu bir AI modelidir. Konuşma ve görüntüleri işler, araştırma amacıyla ücretsiz olarak kullanılabilir – görsel bir kodlayıcıyı büyük bir dil modeli olan LLaMA Vicuna türevi ile birleştirir. LLaVA, GPT-4’ün OpenAI API’si aracılığıyla sentezlenen, makine tarafından oluşturulan eğitim verileriyle oluşturuldu.

Araştırmacıların amacı, sıfır vuruşlu girdi için büyük bir dil modeli (LLM) yetiştirmek ve bu yaklaşımı çok modlu bir şekilde test etmekti. “Sıfır atış”, burada modelin daha fazla belirtim (ipucu) olmaksızın hemen anlamlı yanıtlar verebilmesi gerektiği anlamına gelir. LLaVA, hem metin hem de resim biçimindeki talimatları ve her iki yöntemin bir kombinasyonunu kabul etmesi bakımından çok modludur. Aynı derecede heyecan verici olan, araştırma ekibinin LLaVA’nın bilimsel soru-cevap konuşmaları için ince ayar yapıldığında %92’nin üzerinde bir başarı oranına ulaşmasının beklendiği notu. Bu bağımsız olarak doğrulanabilirse, önceki karşılaştırma değerlerinde ilerleme olacaktır.

Araştırmacılar, çok modlu bir sesli-resimli talimat seti oluşturmak için GPT-4’ün yalnızca sesli sürümünü (çok modlu eklenti olmadan) kullandılar. Vision Encoder ve Large Language Model’in (LLM) birleşimiyle LLaVA, genel görsel ve dilsel beceriler kazandı. İlk testlere göre, daha önce hiç görülmemiş görüntüleri metin biçiminde anında tanımlayabilir ve GPT-4’ün çok modlu sürümüne yakın performans gösterdiği söylenir: Ekip, çok modlu sürüme kıyasla %85 başarı oranı bildirir. GPT-4’ün.

LLaVA: Araştırma Demosu, metin çıktısı içeren bir görüntü isteminin ekran görüntüsü

LLaVA görsellerle ilgili soruları yanıtlıyor: “Burayı ziyaret ederken nelere dikkat etmeliyim?” sorusu soruldu. bir test görüntüsü ile birlikte. Cevap, görüntüde tasvir edilen sahne hakkında ayrıntılı bilgi ve ondan elde edilen tavsiyeler sağlar.

(Resim: LLaVA web sitesi)

GPT 4 çok modlu sürümü şu ana kadar yalnızca sunulduğu için harici kıyaslamalar mevcut değildir, ancak genel kullanıma açık değildir. Şu anda yalnızca belirli Microsoft OpenAI iş ortaklarının bu sürüme erişimi vardır. LLaVA ekibi, özellikle de dahil olan araştırmacılardan biri Microsoft tarafından istihdam edildiğinden, bu seçkin birkaç çevreye ait görünüyor. Microsoft, OpenAI’nin isim sponsorudur ve girişimi toplam 11 milyar ABD doları karşılığında satın almıştır ve GPT-3’ten bu yana OpenAI’nin yapay zeka modellerini kullanmak için münhasır hakları güvence altına almıştır. 2019’da Microsoft ile ticari ilişkinin başlamasından bu yana, tüm OpenAI modelleri dünyanın geri kalanı için kapalı kaynak ve kara kutudur. Metin tabanlı ChatGPT’den farklı olarak henüz bir demo aracılığıyla test edilemediğinden, özellikle GPT-4’ün çok modlu yetenekleri hakkında çok az şey bilinmektedir. Münhasır ortaklar tarafından bildirilen performans değerleri henüz bağımsız olarak doğrulanamıyor.

LLaVA’nın piyasaya sürülmesi, Microsoft OpenAI makine dairesine bir bakış sağlar ve ekip, model ve kod tabanıyla birlikte görsel ayar için GPT-4 tarafından oluşturulan veri setini yayınladığı için heyecan vericidir. Proje hakkında daha fazla bilgi LLaVA web sitesinde mevcuttur. Arama demosu ayrı bir etki alanında denenebilir.

Araştırma demosundaki etkileşim seçenekleri: Microsoft ve iki ABD üniversitesinden gelen ekip, kullanıcı verilerini toplar ve onlardan LLaVA ile oluşturulan sonuçlar hakkında geri bildirim ister.

(Resim: LLaVA web sitesi)

Arayüze, kullanıcıların sonuçları iyi veya kötü olarak derecelendirebilecekleri oldukça basit bir değerlendirme aracı entegre edilmiştir (beğenme: olumlu oy, beğenmeme: olumsuz oy). Ayrıca, istenmeyen içeriğe bir uyarı bayrağı verilebilir. Kullanıcılar mevcut bir istek için yeni bir yanıt isteyebilir ve baştan başlamak için geçmişi temizleyebilir. Demoda iki test görüntüsü saklanır. Açıklamaya göre modelin birkaç yerleşik güvenlik mekanizması var ve yasa dışı, zararlı, şiddet içeren, ırkçı veya cinsel pornografik amaçlarla kullanılmaması gerekiyor (görünüşe göre bunu yapabilecek durumda). Kullanıcı diyalog verileri “gelecekteki araştırma amaçları için” saklanır.

Onunla çalışan herkes uygunsuz yanıtları “işaretleyebilir” (bu görev genellikle Kenya’daki ve başka yerlerdeki Reinforcement Learning HF’deki insan geri bildirim bağışlarında düşük ücret alan tıklama işçileri tarafından veya açık kaynak alanındaki kitle kaynak projelerinde gönüllüler tarafından gerçekleştirilir). Bu, görünüşte otomatik bir moderatör yetiştirmek için kullanılır. Buraya katılan herkes, Microsoft’a grubun potansiyel olarak ticari olarak kullanabileceği, ancak tersine, modelin kendisinin ticari olarak kullanılamayacağının farkında olmalıdır.

Microsoft ve diğer proje katılımcıları, kullanıcı verilerini “araştırma amacıyla” toplar. Örneğin, istemi kullanmaya başlamadan ve fotoğraflarınızı yüklemeden önce bunun farkında olmalısınız. Demoyu kullanan herkes şartlar ve koşulları kabul eder. Bu, LLaMA (Özelleştirilmiş Ticari Olmayan Lisans), OpenAI Kullanım Koşulları ve ChatGPT konuşmalarını paylaşan ve koruyan ShareGPT’nin gizlilik uygulamalarına tabi olan, yalnızca ticari olmayan kullanım için Kullanım Koşulları aramasının bir önizlemesidir. (ShareGPT GitHub deposundaki gizlilik sorunlarının tartışılması: görünüşe göre şu anda ShareGPT aracılığıyla paylaşılan verileri silmek mümkün değil).

LLaMA ve yasal gri alandaki yan dalları

LLaMA henüz MetaAI tarafından açık kaynak olarak yayınlanmadı (bundan daha sonra bahsedeceğiz) ve yalnızca belirli araştırma ortakları tarafından kullanılabilir. Bu nedenle, ticari olmayan, tamamen bilimsel amaçlara yönelik kısıtlama, dört yapay zeka araştırmacısı Haotian Liu ve Yong Jae Lee (Wisconsin-Madison Üniversitesi), Chunyuan Li (Microsoft Research) ve Quingyang Wu’nun (Columbia Üniversitesi) oluşturduğu yeni LLaVA için de geçerlidir. veri kümesi ve model ağırlıkları dahil olmak üzere GitHub ve Hugging Face’te mevcuttur.

Yalnızca seçilen araştırma kurumları resmi olarak model ağırlıkları almıştır, bu nedenle LLaMA’nın türevleri şu anda yasal çekincelere tabidir ve yalnızca araştırma amacıyla kullanılabilir, ticari amaçlar için kullanılamaz. LLaMA’nın bazı yan dalları bir araştırma işbirliğinden değil, yasa dışı bir bit torrent sızıntısından gelir ve bu nedenle daha da büyük çekincelere tabidir.

Hedef grup hobi araştırmacıları

LLaVA-Instruct-150K sentetik veri seti, Hugging Face’te mevcuttur. Veriler, Nisan 2023 itibarıyladır. Derleme için arayüz olarak GPT-4-0314 API kullanılmıştır. LLaVA ekibinin belirttiği gibi, ana hedef kitle bilim adamları ve hobi olarak bilgisayar görüşü, NLP, makine öğrenimi ve yapay zeka ile ilgilenen kişilerdir. Veri seti, Atıf-GayriTicari 4.0 Uluslararası lisansına tabidir ve onu kullananlar OpenAI’nin dahili kurallarına da uymak zorundadır. Kullanım koşulları, rakip ürünler oluşturmak için GPT-4 tarafından oluşturulan veri kümelerinin kullanımını içermez.

Araştırma raporu ArXiv.org’da mevcuttur (“Görsel Talimat Ayarı”). Ağırlıklar ve bir değerlendirme içeren model kodu GitHub’da mevcuttur. Sorular, yorumlar ve sorunlar GitHub aracılığıyla da gönderilebilir.

(onun)

Haberin Sonu

LLaVA: LLaMA tabanlı çok modlu açık AI modeli, görüntüleri ve konuşmayı okur

Adanali

Member