LLaMA Replica: RedPajama – açık veri kümelerine sahip ilk merkezi olmayan açık kaynaklı yapay zeka

Adanali · 19 Nis 2023

LLaMA Replica: RedPajama – açık veri kümelerine sahip ilk merkezi olmayan açık kaynaklı yapay zeka

(Bu makale Almanca olarak da mevcuttur.)

1,2 trilyondan fazla jeton içeren LLaMA eğitim veri seti yeniden üretildi ve açık kaynak: RedPajama projesi, bir şeye karşı çıkmak için GPT -4 gibi kapalı kara kutu modellerini talep etmek için bir dizi büyük açık kaynak temel modeli oluşturma hedefini belirledi. Proje şimdi LLaMA veri setinin replikasyonunu tamamladı ve onu halka ücretsiz olarak sunuyor.

RedPajama: açık kaynak AI için işbirliği

RedPajama’nın arkasında Kanada üniversitelerinden (Mila Québec, Uni Montréal), Stanford Üniversitesi’nden birkaç araştırma enstitüsünden (Stanford CRFM – Center for Research on Foundation Models; Hazy Research in the Stanford AI Lab), TogetherCompute, LAION’dan üst düzey araştırmacıların oluşturduğu bir koalisyon vardır. , EleutherAI ve diğer ortaklar proje için uzmanlıklarını, araştırmalarını ve donanım kaynaklarını bir araya getiriyor. Blog gönderisine göre RedPajama kendisi için üç hedef belirledi:

büyük ölçekli, yüksek kaliteli bir veri setini önceden eğitin,
veri seti üzerinde büyük çekirdek modelleri (çekirdek modeller) eğitmek,
Temel modelleri güvenli ve işlevsel hale getirmek için talimatlara göre verileri ve modelleri optimize edin.

Temel veri setinin yayınlanmasıyla birlikte proje bu arada ilk adımı da tamamlamış oldu.

Motivasyon: ChatGPT gibi kara kutular yerine beyaz kutu

Bir blog gönderisine göre, en güçlü temel modeller şu anda OpenAI gibi ticari satıcıların API’lerinin arkasında. merkezi olmayan AI bulut sağlayıcısı Birlikte Proje katılımcıları adına. Bu tür şablonların bağımsız olarak araştırılması, özelleştirilmesi (farklı kullanıcı ihtiyaçlarını dikkate alarak) ve bunların hassas ve gizli veriler için kullanılması erişim kısıtlamasının dışındadır.

Halihazırda büyük AI modellerini açık bir şekilde yeniden oluşturma girişimleri var, ancak bunlar hala büyük ticari dil modelleriyle aynı kaliteyi ve performansı sunmuyor. Örneğin, çekirdek AI EleutherAI, Databricks Dolly 2.0’ın temel aldığı Pythia serisini sergiledi ve LAION’un Andreas Köpf ve Yannic Kilcher liderliğindeki OpenAssistant projesi, yüksek kaliteli bir açık kaynak veri seti içeren ücretsiz bir model yayınladı. Bu, kitle kaynaklı bir gönüllü (insan yapımı) olarak oluşturuldu ve ayrıntılı inceleme ve moderasyon süreçlerinden geçti. Pythia-12B gibi çeşitli modeller bir başlangıç noktası olarak hizmet etti, ancak LLaMA – LLaMA model seviyeleri de çözülmemiş lisanslama sorunları nedeniyle yayınlanamıyor.

Korpustaki GitHub alt kümesini keşfetmek için Meerkat kontrol paneli. Ekran görüntüsü bir önizleme gösterir.

(Resim: Hazy Research (Mirket Deposu))

Yasal olarak özgür olmayan LLaMA ve GPT-4 damıtılmış veri kümeleri

Kısmen sadece araştırma amaçlı olan ve kısmen BitTorrent tarafından sızdırılan LLaMA’nın yan ürünleri, Meta AI LLaMA’yı açık kaynak lisansı altında yayınlamadığı için yasal bir gri alanda çalışma sorunu yaşıyor. Talep üzerine yalnızca seçilen araştırma projelerine yasal erişim verilebilir. Ortaya çıkan modeller ne açık kaynaklıdır ne de ticari kullanıma uygundur. O zamandan beri internette bir dizi yarı açık model dolaşıyor: LLaMA’ya ek olarak Alpaca (Stanford Üniversitesi), Vicuna, LLaVA ve Koala (Berkeley Üniversitesi) var. Ek olarak, çok sayıda şube, ABD’li sağlayıcının kullanım şartlarını ihlal eden sentetik eğitim veri kümeleri oluşturmak için OpenAI API’sini kullandı.

OpenAI, ürünlerinin rakip ürünler oluşturmak için kullanılmasını yasaklar ve bu tür projelere karşı yasal işlem başlatma hakkını saklı tutar. Bunun kağıttan bir kaplan olmadığı ve gelecekte mahkemede mücadele edilmesi muhtemel olduğu ortaya çıkıyor: Microsoft, GPT-4’e potansiyel rakipler geliştiren müşterileri cezalandırmaya başladı ve Bing’in arama verilerine erişimlerini sınırlamakla tehdit etti. Microsoft, modellerini kullanmak için münhasır haklara sahip olan OpenAI’deki en büyük fon sağlayıcı ve lider yatırımcıdır.

Tamamen açık ve tekrarlanabilir temel modeller

RedPajama, dünya standartlarında rekabet edebilecek, tamamen açık ve tekrarlanabilir temel modeller oluşturma hedefiyle bir proje olarak başlatılmıştır. Bahsedilen Kanada ve ABD araştırma enstitülerine (Mila Québec, Montréal, Stanford Center for Research on Foundation Models) ve açık kaynaklı AI derneklerine (LAION, EleuterAI) ek olarak, Ontocord.AI bir ortaktır ve büyük ölçekli kuruluşlar için eğitim verileri oluşturma konusunda uzmandır. birkaç milyar parametreli temel modeller.

Görünüşe göre projenin başlangıç noktası, veri setinin özellikle kapsamlı, yüksek kaliteli ve iyi filtrelenmiş olduğu düşünüldüğünden, LLaMA hakkındaki araştırma makalesiydi. Ayrıca, 7 milyar parametre kadar büyük bir model (LLaMA gibi) çoğu GPU’da çalışabilir, bu da kaynak kısıtlı açık kaynak topluluğu için bir endişe kaynağıdır. Alpaca, Vicuna ve Koala gibi mevcut dallar yalnızca araştırma amaçlı olduğundan, RedPajama hedefi LLaMA’nın ticari uygulamalara da açık, tamamen yeniden üretilebilir bir açık kaynak kopyasıdır. Ayrıca, bu şekilde araştırma, büyük AI modelleri için daha şeffaf bir ardışık düzene sahip olmalıdır.

GitHub’da hazırlık verileri için RedPajama tarifi

Çekirdek veri kümesi, bir sarma yüz havuzunda iki boyutta sıkıştırılır. Yedi farklı veri kaynağından oluşur:

Ortak tarama (Common Crawl Foundation Kullanım Koşullarına göre)
C4 (C4 lisansına göre)
Git Hub’ı (yalnızca MIT, BSD, Apache)
kağıt arXiv (Kullanım Koşullarına göre)
Kitabın (the_pile_books3 ve pg19license’a göre)
Vikipedi (Wikipedia lisansına göre)
Yığın Değişimi (İnternet arşivindeki lisansa göre)

RedPajama'nın eğitim veri seti, Meta AI tarafından LLaMA makalesinde bildirilenlerle kabaca eşleşiyor.

RedPajama Jetonları vs. LLaMA: RedPajama’nın eğitim veri seti, Meta AI tarafından LLaMA makalesinde bildirilen kapsamla kabaca eşleşiyor. LLaMA için sağlanan değerler, arXiv.org’da yayınlanan araştırma makalesinde yer alan bilgilere dayanan tahminlere dayanmaktadır.

(İmaj kredisi: TogetherCompute)

Gerçek dünya verileri ve telif hakkı sorunu

Aslan payı, 878 milyar token ile ücretsiz olarak erişilebilen internet verilerinin ortak taramasına gidiyor. C4, 175 milyar jetonlu standart bir veri kümesidir, GitHub’da 59 milyar jeton vardır (veriler, lisanslara ve kaliteye göre filtrelenir). arXiv.org’dan bilimsel makaleler (28 milyar jeton) tekrarı azaltmak için kullanılır. Açık erişimli bir kitap külliyatı (ekip önyargıyı önlemek için tekilleştirdi, 26 milyar jeton) kitap olarak geldi. Wikipedia 24 milyar belirteçle katkıda bulundu (Wikipedia sayfalarının bir “alt kümesi” diziye dahil edildi) ve StackExchange, buradaki popüler web sitelerinin bir alt kümesiyle 20 milyar belirteçle katkıda bulundu. Kopyalar kaldırıldı.

Kullanılan veri kaynaklarından ikisinin telif haklarını ihlal etmesi kaydıyla, bir telif hakkı avukatının Twitter’da işaret ettiği gibi: Common Crawl ve “The Pile” kitap koleksiyonu. Veri hazırlama ve kalite filtreleri hakkında daha ayrıntılı bilgi, projenin GitHub deposunda mevcuttur. RedPajama veri hazırlama tarifleri yeniden pişirilebilir. Bu önemli çünkü bu %90’a varan çaba için verileri toplayın ve temizleyin gerçek dünya verilerini (sentetik olarak damıtılmış veriler değil) kullanan bir makine öğrenimi projesinde.

Güçlü ortak: ABD Enerji Bakanlığı’ndan Rechenkraft

Yol haritasına göre, projenin bir sonraki adımı sağlam bir temel modelin oluşturulmasıdır. Bu nedenle RedPajama, ABD INCITE programının bir parçasıdır (ABD Enerji Bakanlığı’nın Argonne Liderlik Bilgi İşlem Tesisi’ndeki süper bilgisayarlara erişim ile) ve yine Amerika Birleşik Devletleri Güvenlik Bakanlığı tarafından desteklenen Oak Ridge Liderlik Bilgi İşlem Tesisi’nden (kısaca OLCF) destek alır. Enerji (DOE). Eğitim veri setinin ve gelecekteki açık modellerin RedPajama tarafından piyasaya sürülmesiyle, bu kez gri alan yerine açık kaynak olmak üzere yeni bir LLM yan dalları dalgasının sahnede görünmesi beklenebilir. RedPajama, büyük bir açık kaynak ve merkezi olmayan AI projesinin başlangıcıdır. İlk modellerin “önümüzdeki haftalarda” ortaya çıkması bekleniyor.

RedPajama’nın duyurusu, Together blogunda mevcuttur. Veri seti Hugging Face’ten indirilebilir. Sonuçları çoğaltmak için gereken veriler GitHub’da Apache 2.0 lisansı altında mevcuttur. Projede aktif olarak yer almak isteyen herkes grubun Discord kanalına abone olabilir.

(onun)

Haberin Sonu

LLaMA Replica: RedPajama – açık veri kümelerine sahip ilk merkezi olmayan açık kaynaklı yapay zeka

Adanali

Member