Reflection 70B
Az új mesterséges intelligencia, ami túlszárnyalhatja a GPT-4-et?
TL;DR
A Reflection 70B modell kiemelkedő újdonsága, hogy a “Reflection-Tuning” technikát alkalmazza, amely lehetővé teszi a modell számára, hogy valós időben javítsa saját hibáit. Ezt a funkciót számos benchmark teszten próbálták ki, ahol az eredmények kezdetben vegyesek voltak. A modell előnye abban rejlik, hogy komplex logikai feladatok során képes a hibák felismerésére és javítására, például helyesírási hibák korrekciójára vagy logikai következtetések javítására.
Bár a privát API tesztek ígéretes eredményeket mutattak, a nyílt forráskódú verzió eddigi tesztjei nem igazolták teljesen a kiemelkedő teljesítményt, különösen a Meta Llama 3.1-hez képest. A modell körüli vita és további független tesztek szükségesek ahhoz, hogy megerősítsék a valódi képességeit.
Reflection 70B egy nyílt forráskódú nyelvi modell, amelyet a HyperWrite startup vezetője, Matt Shumer fejlesztett ki. A modell a Llama 3.1-re épül és egy különleges technikát, az úgynevezett Reflection-Tuning módszert alkalmazza, amely lehetővé teszi, hogy a modell valós időben javítsa saját hibáit. Ennek köszönhetően a Reflection 70B több benchmark teszten is felülmúlta a GPT-4 alternatív változatát, a GPT-4o-t, valamint más zárt forráskódú modelleket, például a Claude 3.5 Sonnet-et és a Gemini 1.5-öt is.
Matt Schumer múlt heti bejelentése, hogy a Reflection 70B a világ legjobb nyílt forráskódú MI modellje, nagy port kavart. A modell állítólag felülmúlja a GPD 4.0-t és a SONNET modellt is, különösen a kulcsfontosságú benchmark tesztekben. Az újítás a modellben a reflexiós folyamat, amely lehetővé teszi, hogy a modell egyfajta belső monológot folytasson, ezáltal javítsa válaszainak pontosságát.
Azonban, bár az állítások merészek, független tesztek egyelőre nem erősítették meg a sikereket. Az Artificial Analysis szerint a modell nem teljesít jobban a Meta LLAMA 3.1 70B-nél, és a HuggingFace-re feltöltött modell súlyokkal kapcsolatos problémák is hozzájárultak ehhez. A tesztek szerint a modell messze elmarad a várakozásoktól. Az MI világban a független értékelések rendkívül fontosak, így a pontosítás elengedhetetlen a jövőbeli fejlesztések szempontjából
Az elmúlt napokban számos spekuláció látott napvilágot a Reflection 70B-vel kapcsolatban, különösen a Redditen zajlott élénk eszmecsere kapcsán. Ma reggel azonban új fejlemény történt: Matt Schumer bejelentette, hogy a modell most már elérhető az Open Router platformon. Ez lehetőséget adott arra, hogy a felhasználók elkezdjék tesztelni a modellt.
Érdekes módon még az Artificial Analysis csapata is hozzáfért a modell privát verziójához, és közzétették saját teszteredményeiket. A legújabb adatok szerint a Reflection 70B teljesítménye már sokkal közelebb van a SONNET 3.5-höz a Tudományos Érvelés és Tudás adatkészleten, ami biztató jel. Azonban, amint a modell súlyai felkerültek a HuggingFace platformra, újra elkezdődtek a bonyodalmak.
A Scientific Analysis csapata gyorsan törölte korábbi tweetjét, és új frissítést adott ki, amelyben kiemelték a modell körüli nyitott kérdéseket, valamint az idővonalat. Még mindig sok a kérdés a Reflection 70B valós teljesítményével kapcsolatban, de úgy tűnik, hogy a nyílt forráskódú MI modell fejlődése egyre inkább felzárkózik a nagyobb zárt forráskódú rendszerekhez.
Az API-tól a nyilvános tesztekig
A Reflection 70B modell körüli zűrzavar továbbra is fokozódik. Az idővonal alapján először az eredeti kiadást teszteltük, amely rosszabb teljesítményt mutatott, mint a Llama 3.1 70 milliárd paraméteres változata. Ezután kaptunk hozzáférést egy privát API-hoz, amely lenyűgöző eredményeket hozott, bár nem teljesen felelt meg az eredeti állításoknak.
Mivel a privát API tesztelésekor nem volt lehetőségünk független verifikációra, nem tudtuk biztosan, hogy pontosan melyik modellt teszteltük. Azóta új verziók jelentek meg a HuggingFace-en, és a legfrissebb verzió lényegesen rosszabb eredményeket mutat a benchmark tesztek során, mint amit a privát API-n láttunk. Ez magyarázhatja a korábbi tweetek törlését is.
A Reflection 70B modell tesztelése során felmerült a kérdés, hogy vajon a hosztolt API valójában egy felhőalapú API végpont lehet. Az Open Router API-t használva több teszt készült, amelyek eredményeit különböző modellekkel, például a Llama 3.1 Instruct-tal és a Cloud 3.5 Sonnet-tel hasonlították össze. A Cloud esetében egy speciális, úgynevezett láncszerű gondolkodás (Chain of Thought) módszert alkalmaztak, amely lehetővé tette, hogy a modell több lépésben oldjon meg feladatokat.
A tesztek során különböző logikai kérdésekkel és programozási feladatokkal vizsgálták a modell képességeit. Bár a Reflection 70B kezdeti eredményei vegyesek voltak, a fejlesztések további vizsgálatokat igényelnek, hogy megerősítsék a modell valós képességeit, különösen a privát API-k és nyílt forráskódú verziók közötti különbségek figyelembevételével.
Ajtó kérdés: tolni vagy húzni?
Az egyik érdekes probléma, amellyel a kisebb MI modellek gyakran küzdenek, az olyan egyszerűnek tűnő kérdések, mint hogy tolni vagy húzni kell-e egy üvegajtót, ha a „tolni” szó tükörírással van rajta. A Llama 3.1 például hibásan azt válaszolta, hogy tolni kell. A láncszerű gondolkodás használata azonban segít a modelleknek átgondolni a folyamatot. A Cloud 3.5 Sonnet és a Reflection 70B is ezt a módszert alkalmazza, amely során először megoldást javasol, majd reflektál a megoldásra, és végül megadja a helyes választ.
Az eredmény lenyűgöző, mert a Reflection 70B helyesen megérti, hogy amikor a „tolni” felirat tükörírásban van, valójában húzni kell az ajtót. Ez az összetett gondolkodás bizonyítja, hogy a modell képes hibajavításra és logikai következtetések levonására.
Ezt követően egy még összetettebb feladat következik: János felveszi a labdát, leejti az újságot, majd felveszi a tejet. Ezek a feladatok olyan nyomon követési és emlékezési képességeket igényelnek, amelyek kihívást jelentenek a kisebb modellek számára. Az olyan összetett feladatok, mint „Mit tart János a kezében?”, jól bemutatják, hogyan tud a Reflection 70B modell hatékonyan nyomon követni több elemet egy problémán belül. Miközben más modellek is helyes választ adnak, a Reflection 70B különlegessége abban rejlik, hogy reflektál a gondolkodási folyamatra.
A Reflection 70B modell egy újabb érdekes kihívással nézett szembe, amikor azt a feladatot kapta, hogy számolja meg, hányszor fordul elő az „r” betű a „strawbery” szóban, ám a szó szándékosan hibásan volt leírva. A modell először pontosan kiszámolta az „r” betűk számát, de a reflexiós folyamat során rájött, hogy helyesírási hiba történt, és kijavította a szót.
Ez a képesség, hogy önállóan felismerje a helyesírási hibákat, majd korrigálja azokat, és újraértékelje az eredményt, azt mutatja, hogy a modell kiváló hibajavító mechanizmussal rendelkezik. A végső eredmény alapján a modell helyesen számolta meg az „r” betűket a javított „strawberry” szóban, míg a Llama 3.1 egy kicsit pontatlanul kezelte ezt a feladatot, és kihagyta az utolsó „r” betűt.
Ez a teszt remek példája annak, hogy a Reflection 70B hogyan használja a reflexiót a problémamegoldás javítására és a precíz válaszok adására
Matematikai kérdések és kódolás
A matematikai kérdéseknél a Reflection 70B vegyes teljesítményt nyújtott. Egy egyszerű feladat, hogy „Mi a legkisebb egész szám, amelynek négyzete 15 és 30 között van?”, kezdetben helyes megoldáshoz vezetett. A modell kiszámította, hogy a négy négyzete 16, amely ebbe az intervallumba esik. Azonban a reflexiós folyamat során hibázott, és tévesen arra a következtetésre jutott, hogy a három négyzete, amely kilenc, szintén ebbe a tartományba esik. Ez a hiba rávilágít arra, hogy bár a modell képes hibajavításra, néha túlbonyolítja a feladatot.
Programozási feladatoknál a Reflection 70B jól teljesített, bár a képalkotó API használata során voltak kisebb problémák, például egy nem szükséges API token használatával próbálkozott. A Cloud modell viszont már az első próbálkozásra helyes kimenetet adott, míg a Llama 3.1 kisebb hibákat mutatott az URL-ek feldolgozásában. Összességében a Reflection 70B a programozási kérdések során jól teljesített, de a nyilvánosan elérhető verziók eredményei még nem felelnek meg a privát teszteken látottaknak.