Mesterséges Intelligencia: Miért Nem Tudja Még Felváltani Az Emberi Munkaerőt?
Egy teszt rávilágít a MI rendszerek korlátaira, és arra, miért fontos az emberi intelligencia a komplex feladatok megoldásában
Az Ausztrál Értékpapír- és Befektetési Bizottság (ASIC) egy kísérlete során arra derült fény, hogy a generatív mesterséges intelligencia egyelőre gyenge pontja az információk összefoglalása, különösen, ha ezt az emberekkel hasonlítjuk össze. Az ausztrál Crikey hírportál beszámolója szerint a MI nem tudott olyan részletesen és pontosan összefoglalni adatokat, mint az emberi elemzők, ami újabb kérdéseket vet fel a technológia korlátai és felhasználási lehetőségei kapcsán.
Az ASIC (Australian Securities and Investments Commission) és az AWS (Amazon Web Services) által végzett tanulmány fő célja egy Proof of Concept (PoC) projekt volt, amelyben mesterséges intelligencia (Generative AI, GenAI) nyelvi modellek (LLM) segítségével összefoglalásokat készítettek parlamenti bizottsági beadványokról. A vizsgálat alapvető célja az volt, hogy megértse, hogyan teljesít a mesterséges intelligencia a dokumentumok összefoglalásában, különös tekintettel arra, hogy képes-e hatékonyan azonosítani kulcsfontosságú információkat, például a pénzügyi szabályozó ASIC említéseit és az összeférhetetlenségek kezelésére vonatkozó javaslatokat.
Az Amazon Web Services által lefolytatott próba során, amelyet az ausztrál kormány megbízásából végeztek, azt vizsgálták, hogy milyen képességekkel rendelkezik a generatív mesterséges intelligencia az üzleti környezetben. Sajnos a teszt eredményei szerint a várakozások nem igazán váltak be.
A PoC projekt három fő fázisban zajlott:
- Modellek kiválasztása – Különböző nyelvi modelleket (Llama2-70B, Mistral-7B, MistralLite) teszteltek, hogy melyik a legmegfelelőbb a feladathoz.
- Optimalizálás – A kiválasztott Llama2-70B modellt finomhangolták, hogy javítsák a teljesítményét.
- Végső értékelés – Az AI által készített összefoglalókat összehasonlították az emberek által készített összefoglalókkal.
Vaktesztek sorozata alapján a MI által készített összefoglalók mindössze 47%-os eredményt értek el a kormányzati dokumentumok feldolgozásában, szemben az emberek által készített összefoglalók 81%-ával. Ezek az adatok egyértelműen jelzik, hogy a generatív MI rendszerek jelenleg messze elmaradnak az emberi munka minőségétől. A megbízhatóság hiánya miatt egyelőre kérdéses, hogy a legtöbb vállalkozásnál érdemben bevethetők lesznek-e ezek a rendszerek a mindennapi munkafolyamatokban.
Ez az eset is rávilágít arra, hogy bár a MI nagy lehetőségeket rejt magában, még hosszú út áll előtte, mielőtt valós és megbízható alternatívát jelenthetne a munkahelyi alkalmazásokban.
A mesterséges intelligencia korlátai: Az AI modellek nehezen tudtak finom részleteket és összefüggéseket észlelni a beadványokban. Gyakran előfordult, hogy a modellek hibás információkat adtak vissza, vagy figyelmen kívül hagytak lényeges elemeket.
Prompt engineering jelentősége: Az AI eredményeinek javítása érdekében nagy hangsúlyt fektettek a promptok finomítására. A célzott, specifikus utasítások jelentősen javították az eredmények minőségét a „generikus” utasításokhoz képest.
Optimalizálás szükségessége: Az optimalizálás és a kísérletezés során tapasztalt jelentős javulások arra utalnak, hogy a GenAI alkalmazása során az iteráció és a modellek finomhangolása elengedhetetlen. További időt szenteltek volna az optimalizálásnak, valószínűleg még jobb eredményeket értek volna el.
Az emberi munka fontossága: A projekt során egyértelművé vált, hogy a mesterséges intelligencia jelenlegi formájában inkább az emberi munka kiegészítésére, mintsem teljes kiváltására alkalmas. Az emberi elemzők jobban tudták értelmezni a dokumentumok tartalmát, különösen a finomabb részletek és összefüggések terén.
A technológia gyors fejlődése miatt valószínű, hogy a jövőbeli modellek jobban teljesítenek majd, különösen az összetett, kontextust igénylő feladatok esetén. A PoC rávilágított arra, hogy a mesterséges intelligencia használata jelentős előnyökkel járhat, de jelenleg az emberi felügyelet és az AI-alapú rendszerek közötti együttműködés a leghatékonyabb megoldás.
Mesterséges Intelligencia vs. Ember: Hogyan Teljesít a Llama2-70B a Valós Összefoglalási Feladatokban?
A Meta nyílt forráskódú Llama2-70B modelljét alkalmazták a kísérletben, amely 70 milliárd paraméterével egy rendkívül fejlett MI modell. Feladata az volt, hogy parlamenti vizsgálati dokumentumokat összefoglaljon, külön figyelmet fordítva az ASIC említéseire, valamint a hivatkozások és oldalszámok megadására. Az MI mellett az ASIC munkatársai is elkészítették a saját összefoglalóikat
Ezután öt értékelőt kértek meg, hogy vakteszt során vizsgálják meg a humán és MI által készített összefoglalókat, miközben nem tudták, melyik melyik. Érdekes fejlemény, hogy az értékelés végén három értékelő azt jelezte, hogy már gyanították, hogy az egyik összefoglalót mesterséges intelligencia készítette. Ez jelzi, hogy az MI-nek még van hova fejlődnie, hiszen az értékelők észrevették a különbséget.
Ez a teszt rávilágít arra, hogy bár a generatív MI modellek folyamatosan fejlődnek, jelenleg még nem képesek teljesen emberi szintű eredményeket produkálni, különösen, ha finom részleteket és kontextust kell felismerniük.
Minden szempontból alulteljesít
A jelentés szerint a mesterséges intelligencia összefoglalói minden kritérium alapján alacsonyabb pontszámot értek el, mint az emberi változatok.
Az egyik fő probléma az volt, hogy az MI nem tudott oldalszámokat megadni az információk forrásához, ami a jelentés szerint technikailag javítható lenne. Viszont egy mélyebb gond, hogy az MI gyakran nem értette meg a dokumentumok finomabb összefüggéseit és érthetetlenül választotta meg, mit emeljen ki.
További nehézség, hogy az MI összefoglalói gyakran tartalmaztak irreleváns és ismétlődő információkat, és a bőbeszédűségük miatt nem voltak hatékonyak. Az értékelők arra jutottak, hogy az MI által készített összefoglalók használata még több munkát igényelne, hiszen jelentős mennyiségű tényellenőrzés szükséges lenne. Ez pedig alapvetően megkérdőjelezi az MI használatának előnyeit, mint a költségcsökkentés és az időmegtakarítás.