Tekstistä videoita luova Sora-tekoäly todistaa: elämme vedenjakajalla

Tietoturva-asiantuntija Mikko Hyppönen kirjoitti lokakuussa 2021 ilmestyneessä Internet-kirjassaan, että tulevaisuudessa nykyinen sukupolvi muistetaan ensimmäisinä ihmisinä, jotka liittyivät internetiin.

Vuotta myöhemmin tekoäly-yhtiö Open AI esitteli maailmalle Chat GPT -tekoälytyökalun, joka kykeni tuottamaan luonnollista kieltä ennennäkemättömällä tavalla. Tätä ennen sama yhtiö oli julkistanut tekstisyötteestä kuvia generoivan Dall-e-mallin toisen version.

Yhtäkkiä suuriin kielimalleihin perustuvat sovellukset kykenivät koodaamaan, tekemään tiivistelmiä ja luomaan uusia maailmoja.

Viime keväänä tietoturvayhtiö With Securen tapahtumassa Kaapelitehtaalla Hyppönen korjasi kirjassa esittämää näkemystään.

– Meidät tullaan muistamaan ensimmäisinä ihmisinä, joilla oli mahdollisuus käyttää tekoälyä, Hyppönen sanoi toimittajatilaisuudessa.

Nyt yli vuoden jatkunut tekoälyhuuma ei ole osoittanut hiipumisen merkkejä. Hype otti itse asiassa viime vain lisää kierroksia, kun Open AI julkisti tekstistä ja kuvista videoita tuottavan Sora-tekoälymallin.

Samalla se sai Hyppösen päivitetyn ennusteen näyttämään entistä todennäköisemmältä.

Sora on yksi askel pitkässä matkassa

Tavallisille ihmisille tekoälyn kehitys näyttäytyy nyt valtavina harppauksina. Tekoälytutkijat muistuttavat, että kehityksen taustalla on vuosia tai jopa vuosikymmeniä jatkunut tasaisesti edennyt tutkimustyö.

– Siinä on näennäiseltä tuntuva paradoksi. Miten voi olla, että jos nyt yhtäkkiä tapahtuu jotain, joka saa kaiken aiemman näyttämään vähän säälittävältä, niin siellä tekniikassa ei muka olisi tapahtunut jotain valtavan suurta hyppäystä, sanoo Aalto-ylipiston professori Jaakko Lehtinen.

Toki tekoälyn kehityksessä on tapahtunut valtavia hyppäyksiä. Ne eivät vain ole tapahtuneet viime vuosina.

Lehtinen nostaa esille kaksi merkittävää loikkaa. Ensimmäinen tapahtui vuonna 2014, kun tutkijat tekivät läpimurron konekäännöksen kehityksessä neuroverkkojen avulla.

Tämä loi pohjan seuraavalle loikalle, joka otettiin Googlen tutkimuslaboratoriossa vuonna 2017. Googlen tutkijat kehittivät muuntimen, joka mahdollisti pidemmän muistin kielimalleille. Tämä muunnin merkitsee T-kirjainta GPT:ssä, joka on lyhenne sanoista generative pre-trained transformer.

– Sorassa on tavallaan yhdistelty tässä ajassa liikkuvia lähestymistapoja ja mekanismeja. Ei vaikuta siltä, että siellä olisi varsinaisesti mitään yhtä yksittäistä radikaalia keksintöä, Lehtinen toteaa.

Samaan hengenvetoon hän kuitenkin huomauttaa, että kyse ei ole triviaalista saavutuksesta.

– Näiden tutkimusmaailmassa liikkuvien ajatusten järkevä yhteen liimaaminen on haastavaa, Lehtinen sanoo.

Tämä video on luotu tekstisyötteestä: Heijastuksia Tokion esikaupunkien läpi kulkevan junan ikkunasta.

Dataa, laskentatehoa ja parempia algoritmeja

Lehtisellä on kokemusta tieteellisten ajatusten yhdistelystä. Vuonna 2017 hän oli mukana grafiikkasiruihin erikoistuneen Nvidian tutkimusryhmässä, joka onnistui luomaan aidon näköisiä henkilökuvia neuroverkon avulla.

Tuolloin Nvidian esittelemät tulokset olivat selkeä edistysaskel aiemmista kuvageneraattoreista.

– Me näytimme ensimmäistä kertaa, että tästä hommasta oikeasti tulee jotain. Sanoisin, että videogeneroinnissa on nyt otettu samanlainen selvä laadullinen hyppy, Lehtinen pohtii.

Nvidialla yhä työskentelevä Lehtinen katsoo, että tieteellisten läpimurtojen lisäksi tähän laadulliseen hyppyyn on vaikuttanut datan määrän ja sen käsittelyyn tarvittavan laskentatehon voimakas kasvu.

Jälkimmäisessä kehityksessä Nvidialla on ollut merkittävä rooli. Yhtiön grafiikkapiirit käytännössä pyörittävät nykyistä tekoälyvallankumousta.

Aikoinaan tietojenkäsittelytieteen tutkijat keksivät, että ”väärinkäyttämällä” sen aikaisia grafiikkasuoristimia voitiin laskea muutakin kuin vain grafiikkaa.

– Nvidia havaitsi, että tässä on kyseessä tosi merkittävä juttu ja se alkoi todella määrätietoisesti kehittämään ohjelmistoja ja rautaa tätä kohti, Lehtinen kertoo.

Nyt monet muutkin ovat havahtuneet tilanteeseen. Tällä hetkellä lähes jokaisessa isossa teknologiayhtiössä kehitetään omia siruja tekoälyjärjestelmien pyörittämiseen, mukaan lukien Sora-mallin kehittäneessä Open AI:ssa.

Tämä video on luotu tekstisyötteestä: Fotorealistinen lähikuvavideo kahdesta merirosvolaivasta taistelemassa toisiaan vastaan purjehtiessaan kahvikupissa.

Tekoälymallit kätkevät sisälleen yllätyksiä

Samalla tavalla kuin Nvidian grafiikkapiireistä paljastui aikoinaan yllättäviä kykyjä myös tekoälymallit ovat yllättäneet niiden parissa työskennelleitä tutkijoita. Esimerkiksi Soran ja Chat GPT:n taustalla olevat kielimallit ovat saaneet uusia kykyjä pelkästään datan määrän lisäämisen ansiosta.

Lehtinen vertaa tätä fysiikasta tuttuun faasimuutokseen, jossa tietyssä pisteessä aine muuttaa muotoaan, eli esimerkiksi vesi muuttuu jääksi, kun lämpötila saavuttaa nollan.

– Tavallaan se koneisto siellä taustalla ei muutu, mutta kun mallista tehdään suurempi, sieltä alkaa emergoitua uutta käytöstä, Lehtinen kuvailee.

Nämä muutokset tuovat esiin piilossa olleita ominaisuuksia myös tekoälymallin eri palasista. Esimerkiksi Open AI:n suuri kielimalli paljasti uusia ominaisuuksia Googlen kehittämästä transformer-arkkitehtuurista. Nyt näitä ominaisuuksia käytetään hyväksi Sora-mallissa.

– Se, että näitä malleja saadaan sovellettua vaikka videoon, auttaa ymmärtämään ja kehittämään niitä peruspalikoita, joita käytetään myös muissa sovelluksissa, sanoo Aalto-yliopiston koneoppimisen apulaisprofessori Arno Solin.

Solinin oma ryhmä tekee perustutkimusta juuri näiden rakennuspalikoiden kanssa. Hän muistuttaa, että Soran kaltaisia generatiivisia tekoälymalleja tarvitaan myös moniin muihin asioihin kuin vain uuden median luomiseen.

Sorasta saatavat opit saattavat auttaa esimerkiksi molekyylien tai proteiinien mallinnukseen rakennettavien sovellusten kehitystä.

– Oli se sovellus sitten teksti, kuvat tai molekyylit, niin ne rakennuspalikat ovat kuitenkin hyvin vastaavia, Solin sanoo.

Tekoälystä on tullut riittävän toimiva

Kun teknologiayhtiö Apple julkisti ensimmäisen iphone-puhelimen vuonna 2007, teknologian kehitys oli saavuttanut tarvittavan tason usealla alalla. Akut olivat tarpeeksi kestäviä, verkkoteknologia tarpeeksi nopeaa, muistipiirit tarpeeksi halpoja ja prosessorit tarpeeksi tehokkaita.

Ensimmäinen iphone ei suinkaan ollut täydellinen, eivätkä kaikki uskoneet sen menestykseen. Eihän 500 dollaria maksava puhelin, jossa ei ole näppäimistöä, voi vallata markkinoita.

– Iphonen ensimmäinen versio oli ehkä vähän kökkö, mutta sillä pystyi tekemään asioita, joita ei aikaisemmin ole pystytty tekemään siinä laajuudessa, sanoo Solin.

– Nyt meillä on generatiivisia kuvamalleja, tekstimalleja, videomalleja. Ja nämä ovat kaikki jossain määrin käyttökelpoisia. Eivät täydellisiä, mutta käyttökelpoisia. Kyllä tämä avaa uusia ovia, hän jatkaa.

Tekoälyn kehityksessä voidaan olla nyt samanlaisella vedenjakajalla kuin mobiilimarkkinoilla oltiin vuonna 2007.

Nykyiset tekoälymallit ovat vielä ehkä vähän kökköjä. Ne eivät ole luotettavia. Ne hallusinoivat. Soralla on esimerkiksi vaikeuksia noudattaa fysiikan lakeja videoissaan. Se ei myöskään aina muista kiinnittää huomiota jatkuvuuteen.

Tämä video on luotu tekstisyötteestä: Arkeologit löytävät tavallisen muovituolin autiomaasta, kaivaen ja pyyhkien sitä erittäin huolellisesti.

Ensimmäisessä iphonessa ei ollut 3G-yhteyttä, ei paikantamiseen tarvittavaa GPS:ää, ei sovelluskauppaa, ei videopuheluihin tarvittavaa etukameraa. Nämä ominaisuudet ovat ilmestyneet laitteeseen uusien sukupolvien myötä.

Tekoälyjärjestelmien osalta olemme yhä ensimmäisissä versioissa.

– Me olemme nyt kehityksessä vaiheessa, jossa olemme todistaneet mahdollisuuden tehdä näitä juttuja, mutta kukaan ei tiedä, onko tämä tehokkain tai edes etäisesti tehokkain tapa tehdä näitä asioita, Jaakko Lehtinen toteaa.

Source Link yle.fi