Ali büyük modeli yine açık kaynak! Ticari olarak temin edilebilen Tongyi Qianwen 7B'ye dayalı olarak resimleri okuyabilir ve nesneleri tanıyabilir

2023-08-26 08:03:47

Kaynak: Qubit

Ali'nin açık kaynaklı büyük modeli ve yeni bir modeli~

Tongyi Qianwen-7B'nin (Qwen-7B) ardından Alibaba Cloud, büyük ölçekli görsel dil modeli Qwen-VL'yi piyasaya sürdü ve çevrimiçi hale gelir gelmez doğrudan açık kaynaklı olacak.

Özellikle Qwen-VL, görüntüler, metin ve algılama çerçeveleri gibi birden fazla girişi destekleyen ve metne ek olarak algılama çerçevelerinin çıktısını destekleyen Tongyi Qianwen-7B'yi temel alan çok modlu büyük bir modeldir.

Örneğin 🌰, soru-cevap şeklinde Arnia'nın bir resmini giriyoruz, Qwen-VL-Chat sadece resmin içeriğini özetlemekle kalmıyor, aynı zamanda Arnia'nın resimdeki yerini de tespit edebiliyor.

Test görevinde Qwen-VL, "altıgen savaşçının" gücünü gösterdi. Dört tür çok modlu görevin (Zero-shot Caption/VQA/DocVQA/Grounding) standart İngilizce değerlendirmesinde SOTA'yı elde etti.

Açık kaynaklı haber çıkar çıkmaz büyük ilgi gördü.

Özel performansa bir göz atalım~

Çin açık alan konumlandırmasını destekleyen ilk genel model

Gelin Qwen-VL serisi modellerin özelliklerine bir bütün olarak bakalım:

Çok dilli diyalog: çok dilli diyalog desteği, resimlerde hem Çince hem de İngilizce olarak uzun metin tanıma için uçtan uca destek;
Çok resimli serpiştirilmiş diyalog: çoklu resim girişi ve karşılaştırmayı destekler, resimli soru ve cevabı belirtir, çok resimli literatür oluşturma vb.;
Çin açık alan konumlandırmasını destekleyen ilk genel amaçlı model: algılama çerçevesi, Çin açık alan dili ifadesi aracılığıyla işaretlenir, yani hedef nesne ekranda doğru bir şekilde bulunabilir;
İnce taneli tanıma ve anlama: Diğer açık kaynaklı LVLM (büyük ölçekli görsel dil modeli) tarafından kullanılan 224 çözünürlükle karşılaştırıldığında, Qwen-VL, ilk açık kaynaklı 448 çözünürlüklü LVLM modelidir. Daha yüksek çözünürlükler, ince taneli metin tanımayı, belge sorusunu yanıtlamayı ve algılama kutusu açıklamalarını geliştirebilir.

Senaryolar açısından Qwen-VL, bilgi sorusu cevaplama, görsel soru cevaplama, belge soru cevaplama ve ayrıntılı görsel konumlandırma gibi senaryolarda kullanılabilir.

Örneğin Çince anlayamayan yabancı bir arkadaş, hastaneye doktora gitmek için gittiğinde, tek kafalı ve iki büyük olan rehber haritasına bakıyorsa ve ilgili bölüme nasıl gideceğini bilmiyorsa, haritayı doğrudan atabilir. Qwen-VL'ye sorular ve sorular yöneltin ve Görüntü bilgilerinin tercüman görevi görmesini sağlayın.

Çoklu görüntü girişini ve karşılaştırmayı test edelim:

Arnia'yı tanımasa da duygusal muhakemesi gerçekten oldukça doğruydu (manuel köpek kafası).

Görsel konumlandırma yeteneği açısından, resim çok karmaşık olsa ve çok sayıda karakter olsa bile Qwen-VL, gereksinimlere göre Hulk ve Örümcek Adam'ı doğru bir şekilde bulabiliyor.

Teknik ayrıntılar açısından, Qwen-VL, temel dil modeli olarak Qwen-7B'yi kullanıyor, model mimarisine bir görsel kodlayıcı ViT ekliyor ve ikisini konuma duyarlı bir görsel dil adaptörü aracılığıyla birbirine bağlıyor, böylece model görsel sinyal girişini destekliyor .

Spesifik eğitim süreci üç adıma ayrılmıştır:

Ön eğitim: yalnızca görsel kodlayıcıyı ve görsel dil adaptörünü optimize edin, dil modelini dondurun. Büyük ölçekli görüntü-metin eşleştirilmiş verileri kullanıldığında, giriş görüntü çözünürlüğü 224x224'tür.
Çok görevli ön eğitim: Çok görevli ortak ön eğitim için VQA, metin VQA, referans anlayışı vb. gibi daha yüksek çözünürlüklü (448x448) çok görevli görsel dil verilerini tanıtın.
Denetimli ince ayar: görsel kodlayıcıyı dondurun, dil modelini ve adaptörleri optimize edin. Etkileşimli özelliklere sahip son Qwen-VL-Chat modelini elde etmek amacıyla hızlı ayarlama için diyalog etkileşim verilerini kullanın.

Araştırmacılar, Qwen-VL'yi dört çok modlu görev kategorisinde (Zero-shot Caption/VQA/DocVQA/Grounding) standart İngilizce değerlendirmelerinde test etti.

Sonuçlar, Qwen-VL'nin aynı boyuttaki açık kaynaklı LVLM'nin en iyi sonuçlarını elde ettiğini göstermektedir.

Ayrıca araştırmacılar GPT-4 puanlama mekanizmasını temel alan bir TouchStone test seti oluşturdular.

Bu karşılaştırma testinde Qwen-VL-Chat SOTA'yı elde etti.

Qwen-VL ile ilgileniyorsanız, Modak Topluluğu'nda ve huggingface'te doğrudan deneyebileceğiniz demolar var ve bağlantı makalenin sonundadır~

Qwen-VL, araştırmacıların ve geliştiricilerin ikincil geliştirme yapmalarını destekler ve ayrıca ticari kullanıma da izin verir ancak ticari kullanım için öncelikle anket uygulamasını doldurmanız gerektiğini belirtmek gerekir.

Proje bağlantısı:

-Sohbet

Kağıt adresi:

View Original

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

1 Likes

Reward
1
Comment
Share

Comment

0/400

No comments

Topic
1/3
1Simple Earn Annual Rate 24.4%
19k Popularity
2Gate Launchpad List IKA
27k Popularity
3ETH Trading Volume Surges
22k Popularity
4Gate ETH 10th Anniversary Celebration
20k Popularity
5Trump’s AI Strategy
17k Popularity

sitemap