MiniMax AI Video-01 Kína legújabb SORA kihívója
A kínai MiniMax AI startup bemutatta a Video-01 modellt, amely képes nagyfelbontású videókat generálni szöveges utasítások alapján. A vezérigazgató, Yan Junjie, egy céges rendezvényen ismertette a főbb jellemzőket: a modell 1,280 x 720 pixeles felbontást támogat 25 képkocka/másodperc sebességgel, valamint lehetőséget biztosít a virtuális kameravezérlésre.
Jelenleg a videók hossza 6 másodpercre van korlátozva, de a MiniMax tervezi ennek 10 másodpercre történő bővítését. A modell pontos technikai részleteit, beleértve annak architektúráját és a tanítóadatokat, egyelőre nem hozták nyilvánosságra.
A vállalat rendszeres frissítéseket tervez a videógenerátorhoz, amelyek között szerepel a képalapú bemenet támogatása, valamint a felhasználók számára nagyobb irányítás biztosítása a végleges videó felett
Tartalom
19 世纪收拾行囊的男子
19. századi férfi, aki összepakolja a csomagját
Ingyenesen kipróbálható a Video-01 modellt a hailuoai.com/video oldalon, miután regisztrálsz egy mobiltelefonszámmal. A MiniMax AI emellett egy API-t is biztosít a fejlesztők számára. Yan Junjie, a vezérigazgató hangsúlyozta, hogy a cég jelenleg a technológia széles körű elérhetővé tételére koncentrál, nem pedig annak kereskedelmi célú felhasználására.
Videóminőség és képességek
A Video-01 által generált videók még mindig könnyen felismerhetők, mint MI által készítettek. A videók enyhén túlszaturáltak, sima felületekkel, hasonlóan a nagy mértékben szűrt felvételekhez. A Video-01 különféle stílusokat kínál, például anime, CGI, és videójáték grafikát. A modell viszonylag kevés képzajjal vagy hibával dolgozik, és úgy tűnik, képes a videókban még szöveget is megjeleníteni
A videók vizuális stílusai sokszínűek, de a Video-01 modell egyedi, AI-ra jellemző jegyei továbbra is felismerhetők. A finomított felületek és a szaturált színek mellett az eszköz viszonylag kevés képhibát mutat, ami előrelépés más modellekhez képest. Az eszköz szöveges megjelenítésre is alkalmas, ami kiemeli versenytársai közül. A MiniMax tervezi a további fejlesztéseket, így várhatóan még kifinomultabb videókat láthatunk a jövőben.
Példák
a weird scary hybrid animal plant scrawling in the dirt, practical effects, post-apocalyptic movie scene shot on RED Komodo, directed by Andrei Tarkovsky
egy furcsa, félelmetes hibrid állat növény, amely a koszban firkál, praktikus effektusok, posztapokaliptikus filmjelenet a RED Komodo-n forgatott, Andrej Tarkovsky rendezésében
Prompt
Within the confines of a decrepit warehouse, the atmosphere is thick with the particulate remnants of a bygone era, as dust particles swirl aimlessly, caught in the air. The acrid scent of smoke and the sharp tang of gunpowder permeate the surroundings, creating an almost palpable tension. Without warning, the scene is ruptured by an explosive force; a violent eruption that engulfs everything in a tumultuous surge of fire and billowing smoke. The flames, a living entity, cast a macabre dance on the decrepit walls, as debris—splintered wooden boards and jagged metal fragments—are thrown chaotically in every direction, a chaotic ballet of destruction. The camera, in its unyielding duty to capture the moment, trembles with the sheer power of the blast, its lens struggling to maintain focus amidst the upheaval. The light, once stable, now flickers erratically, a strobe light to the inferno's rhythm, casting stark shadows and highlighting the stark reality of the devastation. This is a high aesthetic portrayal of chaos and decay, a visual symphony of light and shadow, motion and stillness, where every frame is a testament to the raw power of the scene unfolding.
Egy omladozó raktár falai között a levegőt sűrűn áthatják egy letűnt kor maradványai, ahogy a por részecskéi céltalanul kavarognak a levegőben. A füst fanyar szaga és a puskapor éles aromája tölti be a környezetet, szinte tapintható feszültséget teremtve. Váratlanul egy robbanás zavarja meg a jelenetet; egy erőszakos kitörés, amely mindent elnyel egy tomboló tűz és gomolygó füst kavalkádjában. A lángok, mint élő lények, groteszk táncot járnak az omladozó falakon, miközben a törmelék – szétrepedt deszkák és szilánkos fémdarabok – kaotikusan szóródnak szét minden irányba, egy pusztító balettként. A kamera, hűségesen rögzítve a pillanatot, remeg a robbanás erejétől, lencséje küzd, hogy megőrizze a fókuszt az átalakulás közepette. A fény, amely korábban stabil volt, most szeszélyesen villódzik, mint egy stroboszkóp az infernó ritmusára, éles árnyékokat vetve, és kiemelve a pusztítás kegyetlen valóságát. Ez a káosz és a hanyatlás magas esztétikai ábrázolása, egy vizuális szimfónia fényekből és árnyékokból, mozgásból és mozdulatlanságból, ahol minden egyes kép tanúbizonyságot tesz a kibontakozó jelenet nyers erejéről.
A regisztráció után a MiniMax AI megkéri a felhasználókat, hogy fogadják el a felhasználási feltételeket, amelyek között szerepel, hogy tilos illegális tartalmakat készíteni. A cég külön felhívja a figyelmet arra, hogy az eszközt nem szabad pletykák terjesztésére, magánélet megsértésére, vagy illegális információk megosztására használni.
Ennek ellenére az AI által generált tartalom lehetőségei igen széleskörűek, hiszen híres személyekről és politikai vezetőkről, mint Donald Trump vagy Vlagyimir Putyin, is képes videókat készíteni. Az eszköz automatikusan blokkolja a pornográf vagy explicit jeleneteket, és a videók jobb alsó sarkában diszkrét vízjelet helyez el.
MiniMax AI háttere és finanszírozás
A MiniMax AI 2021 végén alakult, és az új videógenerátor mellett egy nagy nyelvi modell és egy szövegfelolvasó modell is a portfóliójához tartozik. A legutóbbi finanszírozási körben, amelyet az Alibaba vezetett, körülbelül 600 millió dollár támogatást gyűjtöttek össze, többek között a Tencent részvételével. Ez alapján a MiniMax AI értéke legalább 2,5 milliárd dollárra tehető.
Miközben az OpenAI által fejlesztett Sora továbbra is az iparági etalonnak számít a videó-AI területén, számos kínai cég, például a KLING, a Vidu és a Jimeng AI is belépett a piacra, és eszközeiket elérhetővé tették a felhasználók számára
Összehasonlítás
A MiniMax AI Video-01 és a hasonló AI videógenerátorok, mint a Runway ML Gen 3, a KLING, és az OpenAI Sora, mind a szöveges utasítások alapján készített videók piacán versenyeznek, de jelentős különbségek vannak köztük.
A Runway ML Gen 3 egy fejlettebb modell, amely kiváló minőségű, több másodperces videókat hoz létre, és lehetővé teszi a felhasználók számára a mozgások finomhangolását. Emellett jobb testreszabási lehetőségeket biztosít, például a mozgás irányítása és a videók folytatása terén, ahol a MiniMax jelenleg még korlátozott
A KLING és az OpenAI Sora szintén rendkívül fejlett videógenerátorok, amelyek nagyobb rugalmasságot kínálnak a grafikai stílusok és a videó hossza tekintetében. Az Sora különösen a piac egyik legmagasabb színvonalú modellje, és globálisan is nagy figyelmet kapott. A KLING felhasználóbarátabb, több beviteli lehetőséget is támogat, és nemcsak szöveges, hanem képi utasításokkal is működik(