FinGPT3 on suurin puhtaasti suomenkielinen kielimalli, eikä suurempaa ole hetkeen tulossa

By uutisalue On touko 10, 2023

Euroopan nopein supertietokone Lumi siirtyi Kajaanissa täyteen tehoon viime syksynä. Lumi pääsi heti mukaan tekoälybuumiin. Ensi töikseen supertietokone sai laskettavakseen täysin suomenkielisen GPT-kielimallin. Samanlainen malli, joskin huomattavasti isompi, löytyy ilmiöksi nousseen Chat GPT -sovelluksen sisuksista.

Lumi-supertietokoneesta vastaava Science and Technology -yksikön johtaja Pekka Manninen Tieteen tietotekniikan keskuksesta kertoo, että kajaanilaisella laskentateholla on nyt paljon kysyntää. Syksyllä käynnistetty FinGPT3 -hankkeen jälkeen Lumi on ollut Mannisen mukaan täystyöllistetty. Nyt vastaavanlaisia hankkeita on käynnissä monista muista eurooppalaisista kielistä.

– Voidaan luonnehtia, että generatiivinen tekoäly on ollut korostetussa roolissa, Manninen muotoilee.

– Kone on löytänyt käyttäjänsä, Manninen jatkaa.

Lumin arkkitehtuuri on juuri sopiva kielimalleille, joiden kehittäminen vaatii paljon grafiikkasuorittimilla tehtävää rinnakkaislaskentaa. Kajaanin supertietokoneen laskentateho pohjautuu juuri grafiikkasuorittimiin.

Manninen kertoo, että kielimallit ja niiden mahdollistavat generatiiviset tekoälyjärjestelmät eivät aikoinaan nousseet tärkeimmiksi huomioiksi, kun koneen arkkitehtuuria suunniteltiin.

– Luonnollisen kielen käsittely oli siellä, mutta lopulta puoliksi hyvän sattuman kautta koneen arkkitehtuuri on juuri sitä, mitä generatiivinen tekoäly tarvitsee, Manninen toteaa.

Valtiot heränneet yritysten ylivaltaan tekoälyn kehityksessä

Lumi sai FinGPT3:n laskutyön valmiiksi tammikuussa. Luonnollisen kielen käsittelyyn keskittyvä TurkuNLP-tutkijaryhmä julkisti mallin helmikuussa. Toisin kuin amerikkalaisen tekoäly-yhtiö OpenAI:n kehittämät GPT-mallit, TurkuNLP:n malli on täysin avoin ja kaikkien käytettävissä.

Manninen pitää tärkeänä, että kielimalleja kehitetään myös akateemisessa maailmassa.

Viime vuosina kehitys on kuitenkin kulkenut toiseen suuntaan. Stanfordin yliopiston viime kuussa julkaiseman vuosittaisen tekoälyraportin (siirryt toiseen palveluun) mukaan tekoälyn kehitystyö on siirtynyt voimakkaasti akateemisesta maailmasta yritysmaailmaan. Raportin mukaan viime vuonna julkaistuista merkittävistä koneoppimismalleista 32 oli kehitetty yrityksissä ja vain kolme yliopistoissa.

Samaan aikaan yritykset ovat alkaneet varjella tutkimustuloksiaan tiukemmin. Esimerkiksi Google (siirryt toiseen palveluun) on lopettanut lähes täysin kaiken tutkimustulosten julkaisun sen jälkeen, kun OpenAI julkaisi Chat GPT:n.

Google tutkimuksesta on yleistynyt esimerkiksi muunnin, joka mahdollistaa nykyisten kielimallien pitkän muistin. Tämä muunnin merkitsee T-kirjainta GPT:ssä, joka on lyhenne sanoista generative pre-trained transformer.

– Generatiivinen tekoäly tulee olemaan yksi tämän vuosikymmenen keskeisimmistä teknologinen läpimurto, joten on tärkeää, että sen kehitys on selitettävää ja läpinäkyvää. Siksi on tärkeää, että akateemista tutkimusta tehdään, Manninen sanoo.

Päättäjät eri puolilla maailmaa ovat havahtuneet tekoälyn kehityksen nykytilaan.

Euroopan unioni rahoittaa kolmivuotista HPLT-hanketta (siirryt toiseen palveluun), jonka tarkoituksena on luoda avoimia kielimalleja, jotka kattavat kaikki EU-kielet. Viime viikolla Yhdysvaltain hallinto (siirryt toiseen palveluun) ilmoitti 140 miljoonan dollarin, eli reilun 120 miljoonan euron, hankkeesta, joka synnyttää maahan seitsemän uutta kansallista tekoälyn tutkimuskeskusta.

Britannian valtiovarainministeriö ilmoitti aiemmin keväällä (siirryt toiseen palveluun), että valtio investoi 900 miljoonaa puntaa, eli reilun miljardi euroa, supertietokoneen kehittämiseen. Tämä investointi on osa maan tekoälystrategiaa, jonka yhtenä tavoitteena on luoda briteille oma BritGPT-kielimalli.

Kuuntele Uutispodcastin jakso: Kohistu Chat GPT on tehokas arvauskone, jonka uskotaan mullistavan asiantuntijatyön

Suomenkielinen data loppui kesken

Suomen kielen suurimman kielimallin kehittäneen TurkuNLP:n jäsen Turun yliopiston tietotekniikan laitoksen yliopistotutkija Sampo Pyysalo on samaa mieltä avoimuuden tärkeydestä. Avoimuus mahdollistaa mallien päälle rakentamisen aivan eri tavalla kuin avoimet rajapinnat, joiden kautta pääsee käsiksi tiettyihin toimintoihin, jotka ovat aina lopulta palveluntarjoajan, Chat GPT:n tapauksessa OpenAI:n, hallinnassa.

FinGPT3:n avoimuus onkin melkein tärkeämpi seikka kuin se, että se on suomenkielinen. Toki suomenkielisellä datalla on merkittävä rooli mallissa.

– Kun malli on koulutettu puhtaasti suomenkielisellä datalla, niin sen parametriavaruudesta ja muusta kapasiteetista 100 prosenttia kuuluu suomelle. Mallit, joissa alle prosentti koulutusmateriaalista on suomenkielistä, pystyvät tuottamaan hyvää suomenkielistä tekstiä, mutta ne eivät välttämättä ole omaksuneet suomalaisia perspektiivejä, Pyysalo pohtii.

Puhtaasti suomenkielisiä GPT-3-malleja pystyttiin kouluttamaan 13 miljardiin parametriin asti, mikä karkeasti tarkoittaa 13 miljardia muuttujaa, joita kone oppii säätelemään koulutuksen aikana.

Tämä on varsin vaatimaton määrä, kun sitä verrataan OpenAI:n alkuperäiseen GPT-3 -malliin, jonka parametrien määrä on 175 miljardia. GPT-4:n kerrotaan olevan koulutettu yli biljoonaan parametriin asti.

Eikä isompaa täysin suomalaista kielimallia ole tulossa ihan lähiaikoina. Pyysalo toteaa, että jo nyt suomenkielinen data on loppunut kesken. FinGPT3:a varten koluttiin kansalliskirjaston digitaaliset arkistot, kielipankkien uutisarkistot ja suurin osa suomenkielisestä internetistä.

– Olemme tehneet suurimman mallin, jonka suomen kielellä ei voi tehdä. Jotta meidän kannattaisi alkaa tekemään suurempaa, niin pitäisi olla kymmeniä miljardeja sanoja, jotta se tekisi jonkun eron, Pyysalo toteaa.

Tässä jutussa on tähän mennessä käytetty reilut 600 sanaa.

Teknologinen kehitys ei osoita hiipumisen merkkejä

Mutta koolla ei aina väliä, Pyysalo lohduttaa.

– Isot kielimallit itsessään eivät ole kovin hyödyllisiä mihinkään, mutta jatkokouluttamalla niistä voi saada kaikenlaisia luokittelijoita tai tekstigeneroijia erilaisiin tehtäviin, Pyysalo sanoo.

TurkuNLP-tutkimusryhmä on tehnyt näin esimerkiksi 176 miljardin parametrin avoimelle BLOOM-kielimallille. Se jatkokoulutti monikielistä mallia suomenkielisellä datalla, jolloin mallin aikaisemmat kapasiteetit säilyivät, mutta se oppi rinnalle suomea.

Myös työ FinGPT3:n parissa jatkuu. Pyysalon mukaan mallin kanssa ollaan vielä varhaisessa vaiheessa.

– Me olemme suurinpiirtein nyt siinä, missä OpenAI oli kolme vuotta sitten GPT3:n kanssa. Meillä on hyvä kielimalli, jota koulutamme parhaillaan seuraamaan ohjeita, mutta se ei tuota mitään, mikä muistuttaisi dialogia, Pyysalo kuvailee.

Seuraavaksi TurkuNLP keskittyykin dialogimallin kehittämiseen. Ja tähän tarvitaan dataa. Ryhmä on käynnistämässä avointa joukkoistusprojektia (siirryt toiseen palveluun), jonka kautta kerätään suomenkielistä dialogia Lumin pyöritettäväksi.

Pyysalon mukaan Lumin rooli on ollut ratkaiseva suuren kotimaisen kielimallin kehittämisessä.

– Aikaisemmilla koneilla emme olisi vieläkään lakanneet laskemasta näitä malleja, hän toteaa.

Tulevaisuudessa laskentatehoa on vieläkin enemmän, sillä Bolognassa Italiassa ollaan paraikaa ottamassa käyttöön Leonardo-supertietokonetta, josta tulee maailman neljänneksi tehokkain supertietokone heti Lumin jälkeen.

Pyysalo ennustaa, että kielimallien ja sitä kautta tekoälyn kehitys jatkuu nopeana ellei vieläkin nopeampana myös jatkossa, mikäli yllättäviä esteitä ei tule vastaan teknologian, resurssien tai lainsäädännön puolelta.

– Luulen, että maailma jatkaa muuttumista aika nopeasti.

Kuuntele Uutispodcastin jakso: ”Tekoälyn kehitys seis!” vaativat asiantuntijat – mitä tekoäly uhkaa?

LUE MYÖS

Ylen kysely: nuorten mielestä teitittelystä voitaisiin…

Tänään on se päivä vuodesta, kun Suomi on kuluttanut oman…

Source Link yle.fi