Kiinni kielen syviin rakenteisiin – tietokone kielen tutkimisen apuna

Teksti: Jenny Tarvainen

Eikö olisi hienoa, jos kielestä voisi paljastaa sellaisia toistuvia rakenteita, joita ei vielä tunneta?

Jos meillä olisi tarkempaa ja jäsentyneempä tietoa siitä, kuinka sanat tyypillisesti käyttäytyvät yhdessä muiden sanojen kanssa, olisi helpompaa opettaa suomen kieltä esimerkiksi maahanmuuttajille. Hienoa onkin, että tällaista tutkimusta voidaan tehdä ja tehdäänkin jo – kyse on fraseologiasta.

Fraseologia ei nimestään huolimatta rajoitu vain kiteytyneisiin fraaseihin, kuten idiomeihin (esim. “ei ole kaikki muumit laaksossa” tai “kuin koira veräjästä”). Kyseessä on laajemmin sanojen välisten yhteyksien tarkastelua, esimerkiksi siltä kantilta, mitkä sanat esiintyvät usein yhdessä. Tällaisia tuttuja yhteisesiintymiä ovat esimerkiksi KOIRA + HAUKKUA ja NAINEN + KAUNIS. Itsestäänselviltä tuntuvien parien lisäksi yhteyksiä löytyy kenties yllättävistäkin yhteyksistä, joiden paljastamiseksi tarvitaan systemaattista tutkimusta laajoista aineistosta – joiden havaitsemiseen ns. kielikorva ei riitä. Esimerkiksi sanojen KOVIN ja EI yhteys lienee vaikea havaita ilman tutkimusta. (Ks. Jantunen 2004, 2009.)

Millaisessa merkitysympäristössä sana esiintyy?

Fraseologia menee kuitenkin sanojen keskinäisiä suhteita syvemmälle. On mahdollista tutkia myös, millaisessa merkitysympäristössä jokin sana esiintyy. Merkitysympäristöä voidaan tarkastella laajasti siitä näkökulmasta, onko ympäristö positiivinen, neutraali vai negatiivinen, mutta suhdetta voi tarkastella myös tarkemmin tiettyyn merkitysjoukkoon liittyen. (Jantunen 2009.) Esimerkiksi “jalkapallo” todennäköisesti esiintyy urheiluun tai leikkiin liittyvässä ympäristössä.

Millaisia asenteita sanaan liittyy?

Tällaisella tutkimuksella on mahdollista selvittää, millaisia asenteita liittyy sanoihin ja sitä kautta niitä kuvaaviin vastineisiin todellisuudessa.  On tutkittu esimerkiksi, kuinka internetissä puhutaan homoista ja heteroista, tai kuinka homoista ja lesboista puhuminen eroaa (Jantunen 2018, 2019). Mielenkiintoista onkin, että homoista ja heteroista puhuttaessa korostuu ilmaus “vitun homo”, ja homoista ja lesboista puhuttaessa lesbojen kohdalla korostuu ulkonäköön liittyvä sanasto, mikä toisintaa sitä, että naisesta on tapana puhua ulkonäön kautta (Jantunen 2019). Ei liene kaukaa haettua, että tällainen keskustelukulttuuri internetissä kuvaisi asenteita myös todellisessa maailmassa.

Fraseologisia rakenteita on hyvin haastavaa tunnistaa pelkän intuition avulla. Tämän vuoksi sitä tutkitaan usein koneellisesti korpuksista. Korpukset ovat laajoja, miljoonien saneiden (sane tarkoittaa minkä tahansa sanan esiintymää, jolloin ilmauksessa ‘no voi voi’ on vain kaksi eri sanaa no  ja voi, mutta kolme sanetta) elektronisia tekstiaineistoja.

Fraseologia on siis teoria, kun taas korpustutkimus on menetelmä, jolla fraseologisia rakenteita tutkitaan. Usein korpusaineistoon on merkitty tunnisteita (esim. sanan perusmuoto, sijamuoto tai lauseopillinen rooli), joiden avulla voi tehdä aineistosta hakuja. Näin voi nopeasti selvittää esimerkiksi kahden synonyymin välillä,  kumpi esiintyy useammin ja missä sijamuodoissa. Ohjelmasta riippuen nopeasti saa selville myös yleisimmät sanajonot, joissa hakusana esiintyy. Sen sijaan enemmän työtä vaatii muun muassa aiemmin mainittu merkitysympäristön tutkiminen, vaikkakin automaattista tunnistamista kehitetään myös tällä saralla (Kettunen 2019). Tässä piilee kuitenkin omat haasteensa, koska loppujen lopuksi sanat saavat lopullisen merkityksensä vasta kontekstissaan (esim. Kangasniemi 1997).

Korpustutkimus menetelmänä on siis avannut mahdollisuuksia sukeltaa kielen syviin rakenteisiin. Miljoonien sanojen laajuinen aineisto olisi hyvin työlästä käydä käsin läpi – lisäksi ihmisen olisi vaikeaa havaita tilastollisia toistuvuuksia laajasta aineistosta, vaikka aikaa ja resursseja olisikin.

Laajaa korpustutkimusta on muun muassa tarvittu selvittämään, että sanojen eri muodot (jos sana on esimerkiksi SAADA, sen eri muotoja ovat saan, saisiko, saivat ja saanut) käyttäytyvät itsenäisten sanojen tavoin, eli ne esiintyvät yhdessä eri sanojen kanssa ja niillä on toisistaan eroavia merkitysympäristöjä (ks. Stubbs 2001, joka tutki asiaa englannin SEEK-verbillä ja Tarvainen 2018, jossa itse tutkin sananmuotojen ja merkitysympäristöjen tilastollisia yhteyksiä).

Entä jos kielioppi kumpuaisikin sanojen tavoista käyttäytyä?

Perinteisesti on ajateltu, että kielellä on rakenne (kielioppisäännöt), johon pudotellaan sanoja: näin syntyy lauseita. Entä jos kielioppi kumpuaisikin sanojen tavoista käyttäytyä (Hoey 2005)? Korpustutkimus on laajan massan ja nopean tiedonkäsittelyn vuoksi oiva tutkimusmenetelmä sanojen käyttösääntöjen tarkasteluun, koska isoa dataa voi tarkastella tilastollisin menetelmin. Nämä tilastot puolestaan kertovat, mikä kielelle on todella tyypillistä.

Mihin tällaisia tutkimustuloksia sitten käytännössä voi hyödyntää? Koska kyse on sanojen käyttösääntöjen ja yhdistymisen tutkimisesta todellisesti käytetystä kielestä, tällainen tutkimus kertoo, kuinka kieltä tyypillisesti käytetään. Tiedosta hyötyvät sekä kieliopin kuvaus että suomi toisena ja vieraana kielenä -opetus, jossa on ensiarvoisen tärkeää opettaa todellisuudessa käytettyä kieltä. Konkreettisia tapoja ottaa fraseologia huomioon suomi toisena ja vieraana kielenä -opetuksessa olen kuvannut Kieli, koulutus ja yhteiskunta -lehden artikkelissa (Tarvainen 2019), jossa aiheeseen voi halutessaan tutustua tarkemmin.

Koneistetun kielentutkimuksen ja tilastollisen lähestymistavan nousu kielitieteessä ei kuitenkaan tarkoita, etteikö pienempien aineistojen laadullinen tutkiminen olisi aivan yhtä tärkeää. Laadullinen analyysi auttaa tulkitsemaan määrällisiä tuloksia. Itse näkisinkin, että tietokoneavusteinen laadullinen tutkimus voisi olla tulevaisuuden nouseva tapa tutkia kieltä – korpus osoittaa suuntaa siihen, mitä kannattaisi tarkastella laadullisesti lähemmin.

 

♦ Fraseologia: Teoreettinen viitekehys, jonka puitteissa tutkitaan kielen toistuvia, mutta piileviä rakenteita.

♦ Korpustutkimus: Menetelmä, jossa tutkitaan koneellisesti suuria tekstiaineistoja. Korpustutkimus yhdistetään usein fraseologiseen tutkimukseen, koska laajoista aineistoista on mahdollista paljastaa toistuvia rakenteita.

 

Lähteet

Hoey, Michael 2005: Lexical priming. A new theory of words and language. London: Roudledge Falmer.

Jantunen, Jarmo  2004: Synonymia ja käännössuomi: korpusnäkökulma samamerkityksisyyden kontekstuaalisuuteen ja käännöskielen leksikaalisiin erityispiirteisiin. Väitöskirja. Joensuun yliopisto.

––––– 2009: ”Minulla on aivan paljon rahaa”: Fraseologiset yksiköt suomen kielen opetuksessa. – Virittäjä 113 (3) s. 356–381.

––––– 2018: Homot ja heterot Suomi24:ssä: analyysi digitaalisista diskursseista. – Puhe ja kieli (1).

––––– 2019: Naiselliset femmet ja miesmäiset butchit? Suomi24:n digitaaliset diskurssit lesboudesta. Esitelmä Kielitieteen päivillä 17.5.2019, Itä-Suomen yliopisto.

Kangasniemi Heikki 1997: Sana, merkitys ja maailma. Katsaus leksikaalisen semantiikan perusteisiin. Helsinki: Finn Lectura.

Kettunen, Kimmo 2019: Kirjoitetun nykysuomen automaattisesta semanttisesta merkitsemisestä. Esitelmä Kielitieteen päivillä 17.5.2019, Itä-Suomen yliopisto.

Stubbs, Michael 2001: Words and phrases. Corpus studies of lexical semantics. Oxford: Blackwell Publishers.

Tarvainen, Jenny 2018: SAADA-verbin fraseologiaa: vertaileva korpustutkimus oppijan- ja natiivikielestä. Maisterintutkielma. Jyväskylän yliopisto.

––––– 2019: Kohti fraseologista kielenopetusta: esimerkkejä opetuskokeilusta. Kieli, koulutus ja yhteiskunta, 10 (4). Saatavilla: https://www.kieliverkosto.fi/fi/journals/kieli-koulutus-ja-yhteiskunta-toukokuu-2019/kohti-fraseologista-kielenopetusta-esimerkkeja-opetuskokeilusta

 

Kuva: Aziz Acharki / Unsplash.com

>> Artikkeli julkaistu 29.10.2019

 

RSS-syöte
Twitter
Facebook
Ei kommentteja

Lähetä kommentti