Tänased teemad:
Lisaks varem kasutatud küsimustikule kasutame üllatusküsimuste andmestikku.
Andmed on pärit üllatus- ja infoküsimuste prosoodilise markeerimise uurimusest. Uurimuse eesmärk oli uurida, kuidas kõnes tähistatakse üllatust. Infoküsimused on kannoonilised küsilaused, mille eesmärk on küsida infot. Üllatusküsimuste esmane eesmärk on väljendada imestust või üllatust. Katse tulemused on avaldatud artiklis
Asu, Eva Liina, Heete Sahkai & Pärtel Lippus. 2024. The prosody of surprise questions in Estonian. Journal of Linguistics 60(1). 7–27. https://doi.org/10.1017/S0022226723000014.
Katse viidi läbi nii, et katseisikutele näidati kõigepealt ekraanil lühikest olukorrakirjeldust ja seejärel paluti lugeda kõva häälega küsimus nii, nagu see sobiks kirjeldatud situatsiooni.
Infokontekst | Üllatuskontekst | Küsimus |
---|---|---|
Saad sõbra juures head veini. Tahad teada, mis vein see on, et seda järgmisel korral külalistele pakkuda. | Sa tuled koos abikaasaga poest ja leiad poekotist punase veini. Sa oled üllatunud, sest sinu mäletamist mööda ostsite te hoopis valge veini. | Mis vein see on? |
Su kolleeg on kutsutud ühte gümnaasiumisse ettekannet pidama. Sa tahad teada, mis teemal ta ettekande teeb. | Su sõber jääb kohtumisele pool tundi hiljaks. Kui ta lõpuks kohale jõuab, hakkab ta sinu üllatuseks ja pahameeleks vabandamise asemel hoopis sind süüdistama. | Mida sa räägid? |
Stiimulitena varieeriti 12 erinevat mis-küsimust ja 12 mida-küsimust. Mis-küsimused olid kõik struktuuriga Mis NOOMEN see on? ning mida-küsimused Mida sa VERB?. Kõik küsimused esitati kord info- ja kord üllatuskontekstis. Seega 2 x 2 x 12 = 48 stiimulit. Katseisikuid oli kokku 21 (kõik naised), seega kokku 1008 on andmestikus 1008 esitatud küsimust. Kõva häälega loetud küsimused salvestati ja mõõdeti lausungi kestust ja põhitooni.
Seda kõike siin ei pea läbi tegema, kui sul on
Moodlist võimalik alla laadida koondandmestik valmis kujul (fail
yllatuskysimused_koneleja_keskmised.Rda
). Kui ei või kui
tahad proovida kõik sammud järjest läbi, siis kogu andmestik on vabalt
allalaetav Open Science Framework’i
repositooriumist. Sealt tuleks alla laadida fail
Est_SQ-ISQ_dataset_JLing.Rda
.
Sellisel kujul tuleme selle andmestiku juurde tagasi mõne nädala pärast, kui teeme tutvust segamudelitega. Kuna esialgu kasutame statistikuid, mis eeldavad sõltumatuid mõõtmisi (sellest räägime järgmises praktikumis), siis teisendame andmed sellisele kujule, et meil oleks igalt katseisikult üks keskmistatud mõõtmine iga katse konditsiooni kohta. Seda kõike siin ei pea läbi tegema, Moodle’ist leiab koondandmestiku valmis kujul. Võtame suurest andmestikust kaasa:
Kestus on mõõdetud sekundites, põhitoon hertsides ning teisendatud ka pooltoonideks kõneleja keskmise põhitooni kõrguse suhtes.
dat %>%
group_by(sp, tyyp1, kysisona) %>%
summarise(kestus = mean(phr_dur),
f0_kesk_Hz = mean(phr_f0_mean),
f0_ulat_Hz = mean(phr_f0_q95-phr_f0_q05),
f0_alg_Hz = mean(phr_f0_start, na.rm=T),
f0_lopp_Hz = mean(phr_f0_stop, na.rm=T),
f0_kesk_sem = mean(phr_sem_mean, na.rm = T),
f0_ulat_sem = mean(phr_sem_q95-phr_sem_q05),
f0_alg_sem = mean(phr_sem_start, na.rm=T),
f0_lopp_sem = mean(phr_sem_stop, na.rm=T)) -> ylla
save(ylla, file = "data/yllatuskysimused_koneleja_keskmised.Rda")
Populatsiooni ehk üldkogumi moodustavad uurimisobjekti kõik esindajad. Enamasti on populatsioon nii suur ja raskesti kättesaadav, et ei ole võimalik uurida kogu populatsiooni. Näiteks kui uurime inimkäitumist, siis populatsioon on kogu inimkond, kui uurime eesti keelt, siis kõik eesti keele kõnelejad ja kõik, mis nad iganes räägivad, või kõik eesti keeles kirjutatud tekstid. Sõltuvalt uurimisküsimustest võib muidugi ka populatsioon olla hoomatavam: näiteks kui uurime Anton Hansen Tammsaare loomingut, siis kogu populatsiooni moodustavad kõik tema teosed.
Valim on mingite kriteeriumite alusel tehtud valik uurimisobjektidest, mis uuringus vaatluse alla võetakse ja mille omadusi kogu populatsioonile laiendatakse.
Kõikne uuring: mõõdetakse kogu populatsiooni ehk kõik objektid üldkogumis (nt rahvaloendus, aga ka nt kõik ühe kirjaniku teosed).
Valikuuring: vaadeldakse osa (valimit) üldkogumi objektidest, järeldus terviku kohta tehakse selle osa põhjal.
Valimi põhjal saadud tulemused peaksid olema võimalikult lähedased neile, mida võiksime saada kogu üldkogumit mõõtes.
Valimi suuruse määrab ülesanne, mida tahetakse lahendada.
Lihtne juhuvalim: igal üldkogumi objektil on võrdne tõenäosus sattuda valimisse.
Kihtvalim: üldkogum jagatakse mingi tunnuse alusel kihtideks, igas kihis rakendadakse mingit valikumeetodit (nt juhuvalikut). Valim vastab selle valitud tunnuse alusel üldkogumis valitsevale proportsioonile.
Esindusvalim: valim koostatakse nii, et erinevate võimalike tunnuste proportsioonid on võrdsed.
Mugavusvalim: valimisse kaasatakse need objektid, mida on lihtne küsitleda/mõõta.
Kirjeldavas andmeanalüüsis kasutatakse meetodeid
valimi kirjeldamiseks ja näitlikustamiseks. Kirjeldava statistikana võib
valimi kohta välja tuua näiteks keskmised väärtused või andmetes
esinenud väärtuste sagedused.
Järeldavas
(tõestavas) andmeanalüüsis on meetodid, mis kasutavad valimist
saadud tulemusi üldkogumi kohta käivate otsuste ja prognooside
tegemiseks. Enamasti kasutatakse tõenäosuslikke teste, et hinnata valimi
kuulumist mingisse populatsiooni.
Sageli ei ole uurija huvitatud keskmise taseme arvulisest väärtusest, vaid pigem sellest, kas üldkogumi keskväärtus rahuldab mingit teatud tingimust.
Selleks tuleb sõnastada statistiline hüpotees.
Statistiline hüpotees esitatakse alati hüpoteeside paarina.
Need hüpoteesid on üksteist välistavad, st alati peab üks neist kehtima ja korraga saab kehtida ainult üks.
Nullhüpotees väidab tavaliselt üldkogumi vastavust teatud standardile. See on väide üldkogumi parameetri kohta ja kehtib nii kaua, kuni seda pole ümber lükatud. Parameeter tähendab siinjuures mingit populatsiooni iseloomustavad näitajat (nt Eesti meeste keskmine pikkus), mille väärtust me sageli ei tea.
Nullhüpoteesi ei saa tõestada! (vähemalt ilma kogu populatsiooni mõõtmata)
Sisukas hüpotees on väide üldkogumi parameetri kohta, mis on tõene siis, kui nullhüpotees osutub valeks.
H0: väide, mida eeldatakse üldkogumis kehtivat
H1: tõestamist
vajav hüpotees
Uurime enamasti populatsiooni, ent mõõdame üldjuhul valimit. Mingi parameetri hinnang valimis on statistik. Statistikameetodite abil ei saa väiteid tõestada absoluutselt kindlasti, alati jääb teatav eksimise võimalus ja juhuslikkusest tulenev eksimus.
H0 on tõene | H0 on vale | |
---|---|---|
Lükkad H0 tagasi | I tüüpi viga | Kõik hästi |
Võtad H0 vastu | Kõik hästi | II tüüpi viga |
p-väärtus ehk olulisuse tõenäosus on see, mida statistilistes testides otsuse langetamiseks kasutatakse. Olulisuse tõenäosus on eksimise risk nullhüpoteesi kummutamisel ja sisuka hüpoteesi vastuvõtmisel. Tõenäosust hindame skaalal 0 – 1.
α (alfa) ehk olulisuse nivoo on maksimaalne lubatud eksimise tõenäosus sisuka hüpoteesi tõestamisel. Maksimaalse vea valib otsustaja, tavaline on α = 0,05, mis tähendab, et tõenäosus eksida on väiksem kui 5%, mis pööratuna lubab väita rohkem kui 95% kindlusega, et sisukas hüpotees kehtib. Olenevalt andmetest ja testist võib α aga olla ka 0.1 või 0.001.
Kui kohtleme p-väärtust liiga leebelt ja seame α liiga suureks, siis on oht teha I tüüpi viga ja kuulutada oluliseks efekte, mis tegelikult on juhuslik varieerumine. Kui kohtleme liiga rangelt ja seame α liiga väikseks, siis on oht magada maha olulisi erinevusi ja pidada neid juhuslikuks vareerumiseks.
Alternatiivne definitsioon: olulisuse tõenäosus on tõenäosus, et nullhüpoteesi korral saab saadud tulemuse juhuslikult.
Reegel:
Näiteks kujutame ette, et uurime, kas eesti keele sõnade keskmine pikkus erineb ingliskeelsete sõnade pikkusest (sest nt eesti keeles on ju rohkem morfoloogiat, ulatuslik sõnamoodustussüsteem jne). Nullhüpotees oleks sel juhul, et mingit erinevust kahe keele sõnade pikkuses ei ole, ning sisukas hüpotees, et erinevus on olemas (ega ole juhuslik).
Võtame selle teadasaamiseks mõlema keele tekstikorpustest välja kõikide nendes esinevate unikaalsete sõnavormide nimekirjad ning leiame kummagi keele kohta sõnade keskmise pikkuse (tähemärkides). Oletame, et lepiksime sellega, kui 5-s juhuslikus valimis 100st (antud juhul sõnade nimekirjade paaris) oleks eesti- ja ingliskeelsete sõnade keskmise pikkuse erinevus oluliselt teistugune kui meie nimekirjade põhjal, aga samas 95-s valimis oleks see meie omale sarnane. α on seega 0,05.
Kui nüüd kahe grupi keskmisi võrdleva testi p-väärtus oleks 0,03, siis tõenäosus, et saame nii suure (= nullist erineva) statistiku väärtuse JA ikkagi kehtib nullhüpotees (= seost ei ole / seos on juhuslik), on 3%. Kuna p < α, võtame vastu sisuka ehk alternatiivse hüpoteesi selle kohta, et eestikeelsete ja ingliskeelsete sõnade pikkused on keskmiselt erinevad, ning hülgame nullhüpoteesi, mille kohaselt kahe keele sõnade keskmised pikkused on samasugused.
Kahepoolne hüpotees: kui tahame näidata seda, et keskmine on erinev mingist konstandist (nt populatsiooni keskmine) või ühe rühma keskmine on erinev teise rühma keskmisest.
Kui aga teooriast on teada, milline see erinevus peaks olema, siis saab kontrollida ühepoolset hüpoteesi. Sellisel juhul kontrollime seda, kas rühma keskmine on suurem kui populatsiooni keskmine. Või kahe rühma korral kas ühe rühma keskmine on suurem teise rühma keskmisest.
T-testist tuleb põhjalikumalt juttu järgmises praktikumis. See on test, millega võrrelda kahe rühma arvulise tunnuse keskmisi väärtusi, test näitab, kui tõenäone on, et vaadeldavad rühmad on samast populatsioonist juhuslikult võetud valimit.
Üllatusküsimuste andmestikus vaatasime lausungi kestust ja leidsime, et nagu mitmetes teistes keeltes, on eesti keeles üllatusküsimused (surprise question, SQ) pikemad kui infoküsimused (information-seeking question, ISQ).
Seame hüpoteesid kahepoolsetena:
##
## Two Sample t-test
##
## data: kestus by tyyp1
## t = -4.5453, df = 82, p-value = 1.872e-05
## alternative hypothesis: true difference in means between group ISQ and group SQ is not equal to 0
## 95 percent confidence interval:
## -0.20033892 -0.07836115
## sample estimates:
## mean in group ISQ mean in group SQ
## 0.7724015 0.9117516
Kuna meil on varasemast teada teiste keelte kohta, et üllatusküsimused on pikema kestusega kui infoküsimused, võiksime sõnastada hüpoteesid ühepoolsetena:
Teeme t-testi, kus alternatiivhüpotees on, et esimese rühma keskmine on väiksem kui teise rühma oma:
##
## Two Sample t-test
##
## data: kestus by tyyp1
## t = -4.5453, df = 82, p-value = 9.359e-06
## alternative hypothesis: true difference in means between group ISQ and group SQ is less than 0
## 95 percent confidence interval:
## -Inf -0.08834558
## sample estimates:
## mean in group ISQ mean in group SQ
## 0.7724015 0.9117516
Nii saame poole väiksema p-väärtuse, mistõttu see tundub ju parem. Siin peab aga arvestama, et kahepoolne hüpotees peaks loogiliselt olema välistatud, ning peab hoolega jälgima, kumba poolt hüpoteesist testime. Sest näiteks kui sama andmestiku peal teha t-testi teist pidi ühepoolsete hüpoteesidega, siis saame tulemuseks, et olulist erinevust rühmade vahel ei ole:
##
## Two Sample t-test
##
## data: kestus by tyyp1
## t = -4.5453, df = 82, p-value = 1
## alternative hypothesis: true difference in means between group ISQ and group SQ is greater than 0
## 95 percent confidence interval:
## -0.1903545 Inf
## sample estimates:
## mean in group ISQ mean in group SQ
## 0.7724015 0.9117516
Meil on küsimustikule vastanute seas nii kohvi- kui teejoojaid. Testime, kas nad kuuluvad samasse üliõpilaste populatsiooni näiteks õppimisaja poolest. Hüpoteesid on järgnevad:
H0: kohvijoojate õppimisaeg = teejoojate õppimisaeg
H1:
kohvijoojate õppimisaeg ≠ teejoojate õppimisaeg
Kas need hüpoteesid on ühe- või kahepoolsed?
##
## Two Sample t-test
##
## data: kaua_opid by lemmikjook
## t = 0.98741, df = 102, p-value = 0.3258
## alternative hypothesis: true difference in means between group Kohv and group Tee is not equal to 0
## 95 percent confidence interval:
## -0.9022514 2.6910429
## sample estimates:
## mean in group Kohv mean in group Tee
## 6.196721 5.302326
Vaatame esialgu lihtsalt p-väärtust, mis on 0.326. Nagu kiri testis ütleb, siis on alternatiivne hüpotees ehk H1 see, et keskmiste erinevus populatsioonis ei ole 0. Kuna vaikimisi on α väärtus enamasti 0.05 ja seega p > α, siis me alternatiivset hüpoteesi vastu võtta ei saa ja peame jääma nullhüpoteesi juurde, mille kohaselt kohvijoojate õppimisaeg ei erine teejoojate õppimisajast.
Sama näeme ka karpdiagrammilt.
ggplot(data = kysimustik) +
geom_boxplot(aes(x = lemmikjook, y = kaua_opid)) +
labs(y = "Ülikoolis õppimise aeg (aastates)", x = "Lemmikjook")
Teine näide: kas üliõpilased, kellel on varasemaid kogemusi kvantitatiivsete meetoditega, on keskmiselt kauem ülikoolis õppinud kui need, kellel kogemusi ei ole?
H0: kogemuseTA õppimisaeg = kogemuseGA õppimisaeg
H1: kogemuseTA
õppimisaeg < kogemuseGA õppimisaeg
t.test(kaua_opid ~ kogemused_kvant, data = kysimustik, alternative = "less", var.equal=T)
boxplot(kaua_opid ~ kogemused_kvant, data = kysimustik)
##
## Two Sample t-test
##
## data: kaua_opid by kogemused_kvant
## t = -2.1566, df = 102, p-value = 0.01669
## alternative hypothesis: true difference in means between group Ei and group Jah is less than 0
## 95 percent confidence interval:
## -Inf -0.4641135
## sample estimates:
## mean in group Ei mean in group Jah
## 4.470588 6.485714
NB! Ühepoolse hüpoteesi testimiseks peaksime me eelnevalt
konkreetsest valimist sõltumatult teadma, et kvantitatiivsete meetodite
kogemustega üliõpilased ei saa olla vähem aega ülikoolis õppinud kui
ilma kogemusteta üliõpilased, sest ühepoolse testiga me seda võimalust
üldse ei testi. Peale selle peab ühepoolse testi puhul y~x
süntaksit kasutades teadma, mis on faktori x
tasemed.
Argument alternative = "less"
tähendab, et
järjekorras 1. tase ehk baastase < alternatiivtase. Vaatame igaks
juhuks üle, mis on tasemete järjekord:
## [1] "Ei" "Jah"
Kuna “Ei” on baastase, võrdleb test argumendiga
alternative = "less"
seda, kas “Ei” grupis ehk
kvantmeetodite kogemuseTA üliõpilaste seas oleks keskmine õpinguaeg
lühem kui “Jah” grupis. Kuna p-väärtus on
0.0166918, siis saame vastu võtta alternatiivse ehk sisuka hüpoteesi
ning tõdeda, et kvantmeetodite kogemuseta üliõpilaste ülikoolis õpitud
aeg on keskmiselt lühem kui kogemustega üliõpilastel.
Kui seame oma hüpoteesid valesti, siis ühepoolse testiga võime teha valesid järeldusi:
##
## Two Sample t-test
##
## data: kaua_opid by kogemused_kvant
## t = -2.1566, df = 102, p-value = 0.9833
## alternative hypothesis: true difference in means between group Ei and group Jah is greater than 0
## 95 percent confidence interval:
## -3.566139 Inf
## sample estimates:
## mean in group Ei mean in group Jah
## 4.470588 6.485714
Sellise ühepoolse testi tulemus, et ILMA kogemusteta rühma õppimiseg ei ole pikem kui kogemustega rühmal, ei tähenda automaatselt, et rühmad ei ole erinevad ja et nad kuuluvad samasse populatsiooni, sest kogemusteTA rühma õppimisaeg võib ka olla lühem kui kogemusteGA rühmal. Seega, kui meil ei ole kindlat põhjust kasutada ühepoolset testi, siis peaks alati valima pigem kahepoolse.
Jaotus (ingl distribution) näitab seda, kuidas andmepunktid on skaalal jaotatud.
Joonise kood Keith Johnson 2008, Quantitative methods in linguistics, lk 14-15.
Normaaljaotus e Gaussi jaotus iseloomustab tunnust, mille puhul suur hulk väärtusi koonduvad keskmise ümber, keskmisest oluliselt erinevaid väärtusi on vähe ning need jaotuvad keskmisest ühtlaselt mõlemale poole. Vt Galtoni seemnesorteerija, mis genereerib normaaljaotusega hunnikuid: https://en.wikipedia.org/wiki/Bean_machine
Miks normaaljaotus nii hea on?
…järelikult on see kirjeldatav kahe arvuga
Kui me teame teame keskmist ja
standardhälvet, siis me võime tuletada kõigi teiste
punktide väärtused.
Näiteks kui meil on (hüpoteetiliselt)
klassitäis lapsi (ütleme nt 32 last), kelle keskmine pikkus on 150 cm ja
standardhälve on 10 cm,
Näiteks: genereerime vektori 32 väärtusega, mis on normaaljaotusega, keskmine 1.5 ja standardhälve 0.1
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.348 1.458 1.527 1.514 1.566 1.752
## [1] 0.0917606
NB! Kuna rnorm() genereerib väärtused juhuslikult, siis on tulemus iga kord erinev!
Juhuslik valim ei pruugi alati ideaalselt normaaljaotusega olla. Näiteks kui korrata seda käsku 10 korda, siis tulemus on iga kord veidi erinev ja mitte alati päris sümmeetriline:
Aga mida suurem valim, seda rohkem läheneb normaaljaotusele. Genereerime mitu eri suurusega valimit samast jaotusest:
Kuna paljud statistilised testid (t-test, anova, lineaarne
regressioon) eeldavad, et andmed on normaaljaotusega, siis peaks enne
testi kasutamist veenduma, et eeldus on täidetud.
Jaotuse
normaalsuse testimiseks on võimalik:
hist()
)qqnorm()
ja qqline()
)Histogrammi vaadates näeb (enam-vähem), kas jaotus on sümmeetriline. See ei ole mingi lollikindel test, aga annab esmase ülevaate.
Üks võimalus on võrrelda andmete kvantiiljaotust. Kas teoreetiline ja tegelik jaotus lähevad kokku?
Shapiro testi nullhüpotees on, et valim on pärit normaaljaotusega populatsioonist. Tulemus on p-väärtus, mis on tõenäosuslik hinnang, et nullhüpotees kehtib. Kuna pikkus on juhuslikult genereeritud, siis on väärtused iga kord erinevad, aga näiteks kui p = 0.5455768, siis võib öelda, et 55% tõenäosusega on tegu normaaljaotusega. Tulemuse tõlgendamisel on tavaliselt α = 0.05 ehk et kui on p > 0.05, võib otsustada, et on normaaljaotus, kui on p < 0.05, siis ei ole.
##
## Shapiro-Wilk normality test
##
## data: pikkus
## W = 0.97163, p-value = 0.5456
Tasub tähele panna, et p-väärtuse tõlgendamine selles testis käib seega mõnes mõttes teistpidi kui teistes testides, millega järgmistel kordadel tegeleme, kui tahame näha võimalikult väikseid p-väärtusi. p-väärtuse tõlgendamine tuleneb otseselt nullhüpoteesist.
Me juba kasutasime t-testi, et võrrelda info- ja üllatusküsimuste kestust. T-test aga on parameetriline test, mis eeldab andmetelt normaaljaotust (sellest lähemalt järgmisel korral). Seega peaksime enne testi kasutamist veenduma, et kestus on normaaljaotusega.
Kas jaotus on sümmeetriline?
Normaaljaotuse puhul peaks kõige kõrgem tulp jääma joonise keskele ning tulpade kõrgus kahanema enam-vähem ühtlaselt mõlema skaala äärmuse suunas. Sellel joonisel tundub, et ülemine ots on natuke välja venitatud ja võib-olla ei ole tegemist ideaalse normaalaotusega.
Üks võimalus on võrrelda andmete kvantiiljaotust. Kas teoreetiline ja tegelik jaotus lähevad kokku?
Vasakul, y-teljel näeme tegelikke kvantiile, x-teljel teoreetilisi kvantiile (väärtused standardhälvetes). Seega -1 ja 1 standardhälbe vahemikus, kuhu peaks jääma 66.7% andmetest, on teotreetiliste ja tegelike andmete jaotus üsna sarnane, aga mõlemal pool otstes lähevad jaotused lahku. Tegelik jaotus on küll enam-vähem sümmeetriline, aga natuke paremale välja venitatud.
Saame genereerida teoreetilised väärtused keskmise ja standardhälbe põhjal.
## [1] 0.8420766
## [1] 0.1562488
# Tegelikud väärtused, mis hõlmavad 99%, 95% ja 68% andmetest
quantile(ylla$kestus, probs = c(0.005, 0.025, 0.16, 0.5, 0.84, 0.975, 0.995))
## 0.5% 2.5% 16% 50% 84% 97.5% 99.5%
## 0.5811123 0.6109597 0.6988693 0.8285106 0.9824511 1.1764413 1.3596084
## [1] 0.373 0.530 0.686 0.842 0.998 1.155 1.311
Siin kõrvuti tegelik jaotus (must joon) ja teoreetiline normaaljaotus samade mõõtmistearvu, keskmise ja standardhälbe korral (punane joon):
Shapiro-Wilki test hindab tõenäosust, et valim on pärit normaaljaotusega populatsioonist. Testi nullhüpotees on, et valim on pärit normaaljaotusega populatsioonist. Tulemuse tõlgendamisel on tavaliselt α = 0.05 ehk kui p > 0.05, võib otsustada, et on normaaljaotus (me ei saa nullhüpoteesi ümber lükata), kui p < 0.05, siis ei ole (on alust vastu võtta alternatiivne hüpotees: valim ei ole pärit normaaljaotusega populatsioonist).
Nagu ka joonistelt juba näha oli, ei ole lausungite kestused normaaljaotusega: p-väärtus on 0.0017395 ehk on 0.2-protsendiline tõenäosus, et saaksime sama suure (enamasti see tähendab lihtsalt, et nullist erineva) statistiku väärtuse juhul, kui nullhüpotees ikkagi kehtib. See on väga väike tõenäosus, seega hülgame nullhüpoteesi.
Võib ka proovida Anderson-Darlingi testi, mis on natuke leebem ja piiripealsetel juhtudel võime sellega saada oodatuma tulemuse.
##
## Anderson-Darling normality test
##
## data: ylla$kestus
## A = 0.72664, p-value = 0.05596
Ja tõepoolest, testi tulemus ütleb, et on 5.6% tõenäosus, et tegemist on normaaljaotusega, mis lubab jääda 0-hüpoteesi juurde ja väita, et tegemist on normaaljaotusega.
Enamasti, kui andmed on paremale kallutatud (right-skewed)
ehk väikeseid väärtusi on rohkem kui suuri ning mood ja mediaan on seega
väiksemad kui aritmeetiline keskmine (mida tuleb ette tihti, kui mõõdame
millegi kestust, pikkust vms suurust), siis võib jaotuse normaliseerida
see, kui andmed logaritmida. Logaritmimine on astendamise pöördtehe ehk
kui astendades leiame mingi väärtuse \(a^b=c\), siis logaritmides leiame hoopis
astendaja \(log_{a}c=b\). Näiteks \(2^3=8\) (ehk 2*2*2=8
)ja \(log_28=3\). Mingeid väärtusi logaritmides
teisendame need seega mingi kokkulepitud väärtuse (nt
e
, 10, 2 vm) astendajateks ning vähendame seeläbi
suurte erinevuste mõju väärtuste vahel.
## [1] 10
## [1] 2
Logaritmimiseks on R-is niisiis käsk log()
, mis
vaikimisi kasutab kokkulepitud väärtuse ehk alusena (valemis \(a\)) Euleri arvu e
,
mis on 2.71828
. Võib kasutada ka funktsiooni
log2()
, mille alus on 2, log10()
, mille alus
on 10, või kui andmetes on väärtus 0, siis log1p()
. Viimane
liidab igale väärtusele 1 juurde. Seda seepärast, et logaritm mis tahes
alusel arvust 0 on negatiivne lõpmatus, millega pole midagi pihta
hakata. Logaritmida saab ainult positiivseid arve!
## [1] -Inf
Ja teisipidi, kui andmed oleks vasakule kaldu, saaks kasutada
logaritmimise pöördtehet ehk astendamist, milleks on R-is käsk
exp()
.
Vaatame nüüd lausungite kestuste logaritmitud väärtuste jaotust. Kui
kestuse mediaanväärtus on 0.8285106, siis selle logaritm oleks
-0.1881257, sest 2.71828^
-0.1881257 on 0.8285107.
hist(log(ylla$kestus))
qqnorm(log(ylla$kestus))
qqline(log(ylla$kestus))
shapiro.test(log(ylla$kestus))
Kas logaritmimine aitas meil saavutada uuritava tunnuse normaaljaotuse?
Tegelik vs. teoreetiline normaaljaotus logaritmitud andmetega:
Aga peale selle, et üritada andmeid normaliseerida, tasuks kontrollida, palju andmeid oligi. Parameetriliste testide puhul peaks normaaljaotuse nõudesse rangemalt suhtuma juhul, kui mõõtmisi on vähem kui 30. Kui mõõtmisi on alla 30 ja andmed ei ole normaaljaotusega ka normaliseerides, siis peaks valima mitteparameetrilise testi. Kui andmeid on rohkem, siis võib ka mitte normaaljaotusega andmestikuga parameetrilist testi teha.
Oletame, et tahame vaadata, kas ülikoolis õpitud aastate arv erineb nende hulgas, kel on kvantitatiivsete meetoditega varasemaid kogemusi, ja nende hulgas, kellel ei ole. Uuritav tunnus on arvuline ja seletav/grupeeriv kategoriaalne, seega on esimesed kaks eeldust täidetud. Samuti on täidetud valimi juhuslikkuse nõue. Testime nüüd normaaljaotust.
Kas jaotus on sümmeetriline?
Normaaljaotuse puhul peaks kõige kõrgem tulp jääma joonise keskele ning tulpade kõrgus kahanema enam-vähem ühtlaselt mõlema skaala äärmuse suunas. Sellel joonisel ei ole seega väga tõenäoliselt tegu normaaljaotusega.
Üks võimalus on võrrelda andmete kvantiiljaotust. Kas teoreetiline ja tegelik jaotus lähevad kokku?
Vasakul, y-teljel näeme tegelikke kvantiile: ehkki mõõtmiste skaala on 1 – 25 aastat, jääb suurem osa andmepunkte 3 ja 7.25 vahele. Sellise jagunemise puhul eeldaks normaaljaotus (qq-joonel), et 95% andmetest jääks keskmisest +-2 standarhälbe kaugusele (x-teljel) ehk et andmepunktide skaala ulatus oleks antud juhul ülemisest otsast palju väiksem ning ulatuks alumises otsas palju kaugemale (miinuspoolele).
Saame genereerida teoreetilised väärtused keskmise ja standardhälbe põhjal.
## [1] 5.826923
## [1] 4.548428
# Tegelikud väärtused, mis hõlmavad 99%, 95% ja 68% andmetest
quantile(kysimustik$kaua_opid, probs = c(0.005, 0.025, 0.16, 0.5, 0.84, 0.975, 0.995))
## 0.5% 2.5% 16% 50% 84% 97.5% 99.5%
## 1.00 1.00 2.00 4.00 9.52 16.85 21.91
## [1] -7.818 -3.270 1.278 5.827 10.375 14.924 19.472
Siin kõrvuti tegelik jaotus (must joon) ja teoreetiline normaaljaotus õppimisaja mõõtmistearvu, keskmise ja standardhälbe korral (punane joon):
Shapiro-Wilki test hindab tõenäosust, et valim on pärit normaaljaotusega populatsioonist. Testi nullhüpotees on, et valim on pärit normaaljaotusega populatsioonist. Tulemuse tõlgendamisel on tavaliselt α = 0.05 ehk kui p > 0.05, võib otsustada, et on normaaljaotus (me ei saa nullhüpoteesi ümber lükata), kui p < 0.05, siis ei ole (on alust vastu võtta alternatiivne hüpotees: valim ei ole pärit normaaljaotusega populatsioonist).
Nagu ka joonistelt juba näha oli, ei ole ülikoolis käidud aastate arv normaaljaotusega: p-väärtus on 3.4769122^{-9} ehk on 3.4769122^{-7}-protsendiline tõenäosus, et saaksime sama suure (enamasti see tähendab lihtsalt, et nullist erineva) statistiku väärtuse juhul, kui nullhüpotees ikkagi kehtib. See on väga väike tõenäosus, seega hülgame nullhüpoteesi.
Kuna meil on andmed jälle paremale kallutatud (right-skewed) ehk väikeseid väärtusi on rohkem kui suuri ning mood ja mediaan on seega väiksemad kui aritmeetiline keskmine, siis võib jaotuse normaliseerida see, kui andmed logaritmida.
hist(log(kysimustik$kaua_opid))
qqnorm(log(kysimustik$kaua_opid))
qqline(log(kysimustik$kaua_opid))
shapiro.test(log(kysimustik$kaua_opid))
Kas logaritmimine aitas meil saavutada uuritava tunnuse normaaljaotuse?
Tegelik vs. teoreetiline normaaljaotus logaritmitud andmetega:
Aga peale selle, et üritada andmeid normaliseerida, tasuks kontrollida, palju andmeid oligi. Parameetriliste testide puhul peaks normaaljaotuse nõudesse rangemalt suhtuma juhul, kui mõõtmisi on vähem kui 30. Kui mõõtmisi on alla 30 ja andmed ei ole normaaljaotusega ka normaliseerides, siis peaks valima mitteparameetrilise testi. Kui andmeid on rohkem, siis võib ka mitte normaaljaotusega andmestikuga parameetrilist testi teha.
## [1] 104
Proovi kysimustik
ja ylla
andmestike
peal:
Gruppidevaheliste erinevuste hindamine (arvuline sõltuv tunnus ~ kategoriaalne seletav tunnus):
rnorm(n, mean, sd)
- genereerib n-pikkuse vektori
juhuslikest normaaljaotusega arvudest, millel on ette antud keskmine ja
standardhälbe väärtushist()
- joonistab histogrammiqqnorm()
ja qqline()
kvantiiljaotuse
joonisshapiro.test()
- Shapiro-Wilki testnortest::ad.test()
- Anderson-Darlingi testlog()
- naturaallogaritmlog1p()
- liidab enne logaritmimist väärtustele ühe
(kui andmetes on 0-väärtusi)exp()
- astendamine, logaritmimise pöördtehet.test()
- t-testi käsk, sellest rohkem järgmine
kord