अलिबाबाने बुधवारी कृत्रिम बुद्धिमत्ता (एआय) व्हिडिओ निर्मितीच्या मॉडेलचा एक संच प्रसिद्ध केला. डब केलेले डब्ल्यूएएन २.१, हे ओपन-सोर्स मॉडेल आहेत जे शैक्षणिक आणि व्यावसायिक अशा दोन्ही उद्देशासाठी वापरले जाऊ शकतात. चिनी ई-कॉमर्स जायंटने अनेक पॅरामीटर-आधारित रूपांमध्ये मॉडेल्स सोडले. कंपनीच्या डब्ल्यूएएन टीमने विकसित केलेल्या, ही मॉडेल्स प्रथम जानेवारीत सादर केली गेली आणि कंपनीने असा दावा केला की डब्ल्यूएएन 2.1 अत्यंत वास्तववादी व्हिडिओ तयार करू शकते. सध्या, ही मॉडेल्स एआय आणि मशीन लर्निंग (एमएल) हब मिठीच्या चेहर्यावर होस्ट केली जात आहेत.
अलिबाबाने डब्ल्यूएएन 2.1 व्हिडिओ निर्मिती मॉडेलची ओळख करुन दिली
नवीन अलिबाबा व्हिडिओ एआय मॉडेल्स अलिबाबाच्या डब्ल्यूएएन टीमच्या मिठी मारणार्या फेसवर होस्ट केल्या आहेत पृष्ठ? मॉडेल पृष्ठांमध्ये डब्ल्यूएएन 2.1 मोठ्या भाषेच्या मॉडेल्स (एलएलएम) च्या सूटचा तपशील देखील आहे. एकूण चार मॉडेल आहेत-टी 2 व्ही -1.3 बी, टी 2 व्ही -14 बी, आय 2 व्ही -14 बी -720 पी आणि आय 2 व्ही -14 बी -480 पी. मजकूर-टू-व्हिडिओसाठी टी 2 व्ही लहान आहे तर आय 2 व्ही म्हणजे प्रतिमा-ते-व्हिडिओ आहे.
संशोधकांचा असा दावा आहे की सर्वात लहान प्रकार, डब्ल्यूएएन 2.1 टी 2 व्ही -1.3 बी, ग्राहक-ग्रेड जीपीयूवर कमीतकमी 8.19 जीबी व्हीआरएएमसह चालविला जाऊ शकतो. पोस्टनुसार, एआय मॉडेल सुमारे चार मिनिटांत एनव्हीडिया आरटीएक्स 4090 चा वापर करून 480 पी रेझोल्यूशनसह पाच-सेकंद लांबीचा व्हिडिओ व्युत्पन्न करू शकतो.
डब्ल्यूएएन २.१ सूटचे उद्दीष्ट व्हिडिओ निर्मितीचे उद्दीष्ट आहे, तर ते प्रतिमा निर्मिती, व्हिडिओ-टू-ऑडिओ जनरेशन आणि व्हिडिओ संपादन यासारख्या इतर कार्ये देखील करू शकतात. तथापि, सध्या ओपन-सोर्स केलेले मॉडेल या प्रगत कार्यांसाठी सक्षम नाहीत. व्हिडिओ निर्मितीसाठी, ते चिनी आणि इंग्रजी भाषांमध्ये तसेच प्रतिमा इनपुटमध्ये मजकूर स्वीकारते.
आर्किटेक्चरमध्ये येत असताना, संशोधकांनी उघड केले की डब्ल्यूएएन 2.1 मॉडेल डिफ्यूजन ट्रान्सफॉर्मर आर्किटेक्चर वापरुन डिझाइन केलेले आहेत. तथापि, कंपनीने नवीन व्हेरिएशनल ऑटोएन्कोडर्स (व्हीएई), प्रशिक्षण रणनीती आणि बरेच काही सह बेस आर्किटेक्चरला नवीन केले.
विशेष म्हणजे, एआय मॉडेल वॅन-वाई डब केलेले नवीन 3 डी कार्यकारण व्हीएए आर्किटेक्चर वापरतात. हे स्पॅटिओटेम्पोरल कॉम्प्रेशन सुधारते आणि मेमरीचा वापर कमी करते. ऑटोएन्कोडर ऐतिहासिक ऐहिक माहिती गमावल्याशिवाय अमर्यादित लांबीच्या 1080 पी रेझोल्यूशन व्हिडिओ एन्कोड आणि डीकोड करू शकतो. हे सुसंगत व्हिडिओ निर्मिती सक्षम करते.
अंतर्गत चाचणीच्या आधारे, कंपनीने असा दावा केला की डब्ल्यूएएन 2.1 मॉडेल सुसंगतता, देखावा निर्मितीची गुणवत्ता, एकल ऑब्जेक्ट अचूकता आणि स्थानिक स्थितीत ओपनईच्या सोरा एआय मॉडेलला मागे टाकतात.
हे मॉडेल अपाचे 2.0 परवान्याअंतर्गत उपलब्ध आहेत. हे शैक्षणिक आणि संशोधनाच्या उद्देशाने प्रतिबंधित वापरास अनुमती देत नसले तरी व्यावसायिक वापर एकाधिक निर्बंधांसह येतो.

मुख्य:संपादक:शाहाबाज शेख