Raksti

1.6.5.3.: Uzticamības intervāli


Mēs tagad esam gatavi spert pirmo soli secinošās statistikas un izmantošanas pasaulē statistikas testi. Tie tika izgudroti, lai atrisinātu statistiskās analīzes galveno jautājumu (attēls ( PageIndex {1} )): kā kaut ko novērtēt populācija izmantojot tikai tās paraugs? Tas izklausās kā burvība. Piemēram, iedzīvotāji varētu izstādīt vienu no standarta datu izplatīšana.

Attēls ( PageIndex {1} ) Galvenā statistikas jautājuma grafiskais attēlojums: kā novērtēt populāciju (zilu) no izlases (sarkanā krāsā)? Sarkanā bultiņa attiecas uz ticamības intervālu. Lai atbildētu uz “lielo sarkano” jautājumu, nepieciešama p vērtība.

Ļaujiet mums vispirms aprēķināt ticamības intervāls. Šis intervāls paredzēt ar noteiktu varbūtību (parasti 95%), kur konkrētā centrālā tendence (vidējā vai mediāna) atrodas populācijā. Nejauciet to ar 95% kvantilēm, šiem pasākumiem ir atšķirīgs raksturs.

Mēs sākam pārbaudīt hipotēze ka vidējais iedzīvotāju skaits ir vienāds ar 0. Tas ir mūsu nulles hipotēze, H (_ 0 ), kuru mēs vēlamies pieņemt vai noraidīt, pamatojoties uz testa rezultātiem.

Kods ( PageIndex {1} ) (R):

Šeit mēs izmantojām variantu t-tests vienveidīgajiem datiem, kas savukārt izmanto standartu Studenta t sadalījums. Pirmkārt, šis tests iegūst konkrētu statistika no sākotnējās datu kopas, t.s. t-statistika. Testa statistika ir viena parauga kāda atribūta mērvienība; tas samazina visus datus līdz vienai vērtībai un ar standarta izplatīšanas palīdzību ļauj no jauna izveidot “virtuālo populāciju”.

Studentu pārbaudei ir noteikta cena: jums jāpieņem, ka jūsu populācija ir “parametru”, “normāla”, t.i., interpretējama ar normālu sadalījumu (šautriņu spēles izplatīšana, skat. Glosāriju).

Otrkārt, šis tests nosaka, vai statistikas dati, kas iegūti no mūsu datiem, var pamatoti rasties no sadalījuma, ko nosaka mūsu sākotnējais pieņēmums. Šis princips ir aprēķina pamatā p vērtība. Pēdējā ir varbūtība iegūt mūsu testa statistiku, ja sākotnējais pieņēmums, nulles hipotēze bija taisnība (iepriekš minētajā gadījumā vidējais koka augstums ir vienāds ar 0).

Ko mēs redzam testa iznākumā? t-statistika ir vienāds ar 66,41 pie 30 brīvības pakāpēm (df (= 30 )). P vērtība ir patiešām zema ( (2,2 reizes e ^ {- 16} )), gandrīz nulle un noteikti daudz zemāka par “svēto” ticamības līmeni 0,05.

Tāpēc mēs noraidām nulles hipotēzivai mūsu sākotnējais pieņēmums, ka vidējais koka augstums ir vienāds ar 0, un līdz ar to iet ar alternatīva hipotēze kas ir loģisks pretstats mūsu sākotnējam pieņēmumam (t.i., “augstums ir vienāds ar 0 ”):

Tomēr tas, kas šobrīd ir patiešām svarīgs, ir ticamības intervāls- diapazons, kurā patiesajai populācijas vidējai vērtībai vajadzētu kristies ar noteiktu varbūtību (95%). Šeit tas ir šaurs, aptverot no 73,7 līdz 78,3 un neietver nulli. Pēdējais atkal nozīmē, ka nulles hipotēze netiek atbalstīta.

Ja jūsu dati nedarbojas labi ar parasto izplatīšanu, jums ir nepieciešams universālāks (bet mazāk jaudīgs) Vilkoksons ranga-summas tests. Tas izmanto mediāna tā vietā, lai aprēķinātu testa statistiku V. Mūsu nulles hipotēze būs tāda populācijas mediāna ir vienāda ar nulli:

Kods ( PageIndex {2} ) (R):

(Lūdzu, ignorējiet brīdinājuma ziņojumus, viņi vienkārši saka, ka mūsu datiem ir saistība: divas algas ir identiskas.)

Šeit mēs arī ar lielu pārliecību noraidīsim savu nulles hipotēzi. Ievadot argumentu conf.int = TRUE, tiks iegūts ticamības intervāls populācijas mediānai - tas ir plašs (jo izlases lielums ir mazs), bet neietver nulli.


8.6 Uzticamības intervāls (sieviešu augstums)

Kā Amazon Associate mēs nopelnām no kvalificētiem pirkumiem.

Vai vēlaties citēt, kopīgot vai pārveidot šo grāmatu? Šī grāmata ir Creative Commons attiecinājuma licence 4.0, un jums jāpiešķir OpenStax.

    Ja jūs visu grāmatu vai tās daļu pārdalāt drukas formātā, tad katrā fiziskajā lapā jāiekļauj šāds attiecinājums:

  • Izmantojiet zemāk esošo informāciju, lai ģenerētu citātu. Mēs iesakām izmantot citēšanas rīku, piemēram, šo.
    • Autori: Barbara Illowsky, Susan Dean
    • Izdevējs / vietne: OpenStax
    • Grāmatas nosaukums: Ievada statistika
    • Publicēšanas datums: 2013. gada 19. septembris
    • Atrašanās vieta: Hjūstona, Teksasa
    • Grāmatas URL: https://openstax.org/books/introductory-statistics/pages/1-introduction
    • Sadaļas URL: https://openstax.org/books/introductory-statistics/pages/8-6-confidence-interval-womens-heights

    © 2021. gada 19. maijs OpenStax. Mācību grāmatu saturs, ko ražo OpenStax, tiek licencēts saskaņā ar Creative Commons Attribution License 4.0 licenci. Uz OpenStax nosaukumu, OpenStax logotipu, OpenStax grāmatu vākiem, OpenStax CNX nosaukumu un OpenStax CNX logotipu neattiecas Creative Commons licence, un tos nevar reproducēt bez Rīsu universitātes iepriekšējas un skaidras rakstiskas piekrišanas.


    Ko jūs atradīsit šajā zyBook:

    Vairāk darbību ar mazāk teksta.

    • Īpaši uz studentiem vērsts ievads lietotajā statistikā.
    • Tradicionāli sarežģītās tēmas tiek atvieglotas, izmantojot animācijas un mācību jautājumus.
    • Iekļautas vairākas nodaļas par datu analīzi un datu ieguves algoritmiem.
    • Lai studenti varētu eksperimentēt, visā tiek nodrošinātas Python kodēšanas vides.
    • Automātiskās programmēšanas darbības ir iekļautas, izmantojot iebūvētu programmēšanas vidi.
    • Parasti tiek kombinēts ar & # 8220pielietoto regresijas analīzi & # 8221 ar daudzām iespējamām konfigurācijām.

    Instruktori: Vai vēlaties novērtēt šo zyBook savai klasei? Reģistrējieties bezmaksas izmēģinājumam un pārbaudiet jebkura zyBook pirmo nodaļu jau šodien!


    10.2 Efektu izmēri

    “Statistiskā nozīmība ir vismazāk interesanta lieta par rezultātiem. Rezultāti jums jāapraksta pēc lieluma mērījumiem - ne tikai tā, vai ārstēšana ietekmē cilvēkus, bet arī cik daudz tā ietekmē viņus. ” Gene Glass, citēts (Sullivan and Feinn 2012)

    Iepriekšējā nodaļā mēs apspriedām ideju, ka statistiskā nozīmība ne vienmēr atspoguļo praktisko nozīmi. Lai apspriestu praktisko nozīmi, mums ir nepieciešams standarta veids, kā aprakstīt efekta lielumu faktisko datu izteiksmē, ko mēs saucam par efekta lielums. Šajā sadaļā mēs iepazīstināsim ar jēdzienu un apspriedīsim dažādus veidus, kā var aprēķināt efektu lielumus.

    Efekta lielums ir standartizēts mērījums, kas salīdzina kāda statistiskā efekta lielumu ar atsauces lielumu, piemēram, statistikas mainīgumu. Dažās zinātnes un inženierzinātņu jomās šī ideja tiek dēvēta par “signāla un trokšņa attiecību”. Efekta lielumu var noteikt daudzos veidos, kas ir atkarīgi no datu veida.

    10.2.1 Koena D

    Viens no visizplatītākajiem efekta lieluma mērījumiem ir pazīstams kā Koena d, kas nosaukts pēc statistiķa Džeikoba Koena (kurš ir visslavenākais ar savu 1994. gada rakstu “Zeme ir apaļa (p & lt .05)”) vārdā. To izmanto, lai aprēķinātu atšķirību starp diviem vidējiem rādītājiem to standartnovirzes ziņā:

    kur ( josla_1 ) un ( bar_2 ) ir abu grupu vidējais lielums, un (s ) ir apvienotā standarta novirze (kas ir abu paraugu standarta noviržu kombinācija, kas svērtā pēc to izlases lieluma):

    [s = sqrt < frac <(n_1 - 1) s ^ 2_1 + (n_2 - 1) s ^ 2_2>> ] kur (n_1 ) un (n_2 ) ir izlases lielumi un (s ^ 2_1 ) un (s ^ 2_2 ) ir attiecīgi abu grupu standarta novirzes. Ņemiet vērā, ka tas pēc gara ir ļoti līdzīgs t statistikai - galvenā atšķirība ir tāda, ka saucējs t statistikā balstās uz vidējā standarta kļūdu, savukārt Koena D saucēja pamatā ir datu standartnovirze. Tas nozīmē, ka, lai arī t statistika pieaugs, palielinoties izlases lielumam, Koena D vērtība nemainīsies.

    10.1. Tabula: Koena D interpēta
    D Interpretācija
    0.0 - 0.2 niecīgs
    0.2 - 0.5 mazs
    0.5 - 0.8 vidēja
    0.8 - liels

    Efekta lieluma interpretēšanai Koena d izteiksmē parasti tiek izmantota skala, kas parādīta 10.1. Tabulā. Lai palīdzētu izprast šīs interpretācijas, var būt noderīgi apskatīt dažus vispārzināmus efektus. Piemēram, ietekme uz dzimumu atšķirībām pieaugušo augumā (d = 2,05) ir ļoti liela, atsaucoties uz mūsu tabulu iepriekš. Mēs to varam redzēt arī, aplūkojot vīriešu un sieviešu augstuma sadalījumu paraugā no NHANES datu kopas. 10.3. Attēlā redzams, ka abi sadalījumi ir diezgan labi nošķirti, lai arī joprojām pārklājas, uzsverot faktu, ka pat tad, ja starp divām grupām ir ļoti liels efekta lielums, no katras grupas būs indivīdi, kas vairāk līdzinās otrai grupai .

    10.3. Attēls: Gludi histogrammas diagrammas vīriešu un sieviešu augstumam NHANES datu kopā, parādot skaidri atšķirīgus, bet arī skaidri pārklāšanās sadalījumus.

    Ir arī vērts atzīmēt, ka šāda mēroga sekas zinātnē sastopam reti, daļēji tāpēc, ka tās ir tik acīmredzamas sekas, ka mums nav vajadzīgi zinātniski pētījumi, lai tās atrastu. Kā redzēsim 17. nodaļā par reproducējamību, ļoti liela ziņotā ietekme zinātniskajos pētījumos bieži atspoguļo apšaubāmas pētniecības prakses izmantošanu, nevis patiesi milzīgu ietekmi dabā. Ir arī vērts atzīmēt, ka pat tik milzīga efekta dēļ abi sadalījumi joprojām pārklājas - būs dažas sievietes, kas ir garākas par vidējo tēviņu, un otrādi. Visinteresantāko zinātnisko efektu gadījumā pārklāšanās pakāpe būs daudz lielāka, tāpēc mums nevajadzētu nekavējoties izdarīt stingrus secinājumus par indivīdiem no dažādām populācijām, pamatojoties uz pat lielu efekta lielumu.

    10.2.2 Pīrsona r

    Pīrsona r, kas pazīstams arī kā korelācijas koeficients, ir divu nepārtrauktu mainīgo lineārās attiecības stipruma mērs. Mēs daudz detalizētāk apspriedīsim korelāciju 13. nodaļā, tāpēc šeit saglabāsim šīs nodaļas detaļas, mēs vienkārši ieviesīsim r kā veids, kā kvantitatīvi noteikt attiecību starp diviem mainīgajiem.

    r ir rādītājs, kas svārstās no -1 līdz 1, kur vērtība 1 apzīmē ideālas pozitīvas attiecības starp mainīgajiem, 0 nav sakarības un -1 apzīmē ideālas negatīvas attiecības. 10.4. Attēlā parādīti dažādu korelācijas līmeņu piemēri, izmantojot nejauši ģenerētus datus.

    10.4. Attēls: Pīrsona r dažādu līmeņu piemēri.

    10.2.3 Likmes koeficients

    Iepriekšējā diskusijā par varbūtību mēs apspriedām izredžu jēdzienu, tas ir, relatīvo varbūtību, ka daži notikumi notiek, nevis notiek:

    Mēs arī apspriedām izredžu attiecība, kas ir vienkārši divu koeficientu attiecība. Likmju koeficients ir noderīgs veids, kā aprakstīt bināro mainīgo lielumu efektus.

    Piemēram, pieņemsim smēķēšanas un plaušu vēža gadījumu. Pētījumā, kas publicēts Starptautiskajā vēža žurnālā 2012. gadā (Pesch et al. 2012), vairākos dažādos pētījumos tika apvienoti dati par plaušu vēža rašanos smēķētājiem un personām, kuras nekad nav smēķējušas. Ņemiet vērā, ka šie dati nāk no gadījuma kontroles pētījumiem, kas nozīmē, ka pētījumu dalībnieki tika pieņemti darbā, jo viņiem bija vai nebija vēzis, pēc tam tika pārbaudīts viņu smēķēšanas statuss. Šie skaitļi (parādīti 10.2. Tabulā) tādējādi neatspoguļo vēža izplatību smēķētāju vidū vispārējā populācijā, taču tie var mums pastāstīt par saistību starp vēzi un smēķēšanu.

    10.2. Tabula. Plaušu vēža rašanās atsevišķi pašreizējiem smēķētājiem un tiem, kuri nekad nav smēķējuši
    Statuss Nekad nav smēķējis CurrentSmoker
    Nav vēža 2883 3829
    Vēzis 220 6784

    Mēs varam pārvērst šos skaitļus uz koeficientu koeficientiem katrai no grupām. Izredzes, ka nesmēķētājam ir plaušu vēzis, ir 0,08, bet pašreizējā smēķētāja, kam ir plaušu vēzis, izredzes ir 1,77. Šo koeficientu attiecība stāsta par relatīvo vēža iespējamību starp abām grupām: koeficienta koeficients 23,22 norāda, ka smēķētāju plaušu vēža izredzes ir aptuveni 23 reizes augstākas nekā nekad nesmēķētājiem.


    Praktiskā ekonometrija un datu zinātne

    Mēs turpināsim izskatīt vienmātīgās lineārās regresijas modeli: [ mathbf = mathbf boldsymbol < beta> + boldsymbol < varepsilon> ] un pieņemsim, ka pieņēmumi (UR.1) - (UR.4) turiet.

    Šajā sadaļā mēs iepazīstināsim ar jēdzienu intervāla novērtēšana - procedūra vērtību diapazonu izveidošanai, ko sauc ticamības intervāli, kurā, visticamāk, atrodas nezināmie parametri. Uzticamības intervāla izveides procedūras ir ļoti atkarīgas (UR.4) pieņēmums.

    3.5.1 Parametru intervāla novērtējums

    Atgādinām, ka 3.2. Sadaļā mēs izmantojām OLS, lai novērtētu nezināmo parametru vektoru: [ widehat < boldsymbol < beta >> = left ( mathbf^ top mathbf pa labi) ^ <-1> mathbf^ top mathbf ] Tiek saukti aprēķini ( widehat < boldsymbol < beta >> ) punktu aplēses - mēs iegūstam vienu vērtību katram parametram, izmantojot OLS. Turpretī intervāla aplēses ir diapazoni vērtību vērtības, kurās taisnība parametri ( beta_0 ) un ( beta_1 ), visticamāk, samazināsies (intervālu aprēķini tiek aprēķināti atsevišķi katram koeficientam). Intervāla novērtēšana ļauj mums ne tikai novērtēt, kādas citas iespējamās vērtības varētu iegūt, bet arī precizitāte ar kuru tiek aprēķināti pašreizējie parametri. Šīs intervālu aplēses ir zināmas arī kā ticamības intervāli.

    Kā jau minējām 3.4. Sadaļā, ja pieņēmumi (UR.1) - (UR.4) taisnība, tad OLS novērtētājiem ir normāls nosacīts izplatīšana: [ widehat < boldsymbol < beta >> | mathbf sim mathcal left ( boldsymbol < beta>, sigma ^ 2 left ( mathbf^ top mathbf right) ^ <-1> right) ] Ja atceraties, 3.4. sadaļā mēs arī pieminējām, kā mēs varam standartizēt jebkuru normālu sadalījumu, atņemot tā vidējo (mūsu gadījumā ( mathbb( widehat < beta> _i) = beta_i ), (i = 0,1 )) un dalot ar tās standarta novirzi: [Z_i = dfrac < widehat < beta> _i - beta_i> < sqrt << mathbb< rm ar >> ( mathbf < widehat < beta> _i>) >> sim mathcal(0, 1) ] Ņemiet vērā, ka (Z_i ) izplatīšana nav atkarīga no (X ). Tas nozīmē, ka, izsakot apgalvojumus par (Z_i ), mums nav jāuztraucas, neatkarīgi no tā, vai (X ) ir nejaušs mainīgais.

    Tā kā (Z_i sim mathcal(0,1) ), mēs varam izmantot normālu varbūtību tabulu no jebkuras statistikas grāmatas vai tiešsaistē, un ir: [ mathbb

    (-1.96 leq Z_i leq 1.96) = 0.95 ] Aizstājot izteiksmi (Z_i ), iegūst: [ begin mathbb

    left (-1,96 leq dfrac < widehat < beta> _i - beta_i> < sqrt << mathbb< rm ar >> ( mathbf < widehat < beta> _i>) >> leq 1,96 pa labi] & amp = 0,95 beigas ] kuru mēs varam pārrakstīt kā:

    [ mathbb

    left ( widehat < beta> _i - 1,96 sqrt << mathbb< rm ar >> ( mathbf < widehat < beta> _i>)> leq beta_i leq widehat < beta> _i +1.96 sqrt << mathbb< rm ar >> ( mathbf < widehat < beta> _i>)> pa labi] = 0,95 ] Tas nosaka intervālu, kura varbūtība satur parametru ( beta_i ) ir 0,95. Citiem vārdiem sakot, galapunkti: [ widehat < beta> _i pm 1,96 sqrt << mathbb< rm ar >> ( mathbf < widehat < beta> _i>)>, quad i = 0,1 ] sniedz intervāla aprēķinātājs. Ja mēs šādi konstruējam intervālus, izmantojot visi iespējamie lieluma paraugi (N ) no populācijas, tad starp intervāliem (95 \% ) būs true parametrs ( beta_i ), (i = 0, 1 ) . Ņemiet vērā, ka tas tiek pieņemts mēs zinām patieso dispersiju ( mathbb < rm ar> ( mathbf < widehat < beta> _i>) ).

    Kā jau iepriekš minējām, mēs nezinām kļūdas termina patieso dispersiju: ​​ [ mathbb < rm ar> ( widehat < boldsymbol < beta >>) = sākas mathbb < rm ar> ( widehat < beta> _0) un amp mathbb < rm ov> ( widehat < beta> _0, widehat < beta> _1) mathbb < rm ov> ( widehat < beta> _1, widehat < beta> _0) un amp mathbb < rm ar> ( widehat < beta> _1) beigas = sigma ^ 2 pa kreisi ( mathbf^ top mathbf pa labi) ^ <-1> ]

    bet mēs to varam novērtēt. Tomēr ( widehat < sigma> ^ 2 ) novērtēšana un aizstāšana ( sigma ^ 2 ) vietā maina (Z_i ) varbūtības sadalījumu no standarta normāla uz (t ) - sadalījums ar (N-2 ) brīvības pakāpes: [t_i = dfrac < widehat < beta> _i - beta_i> < teksts( widehat < beta> _i)> sim t_ <(N-2)> ] kur ( teksts( widehat < beta> _i) = sqrt < widehat < mathbb< rm ar >> ( mathbf < widehat < beta> _i>)> ). Tas ir pazīstams kā t attiecība (vai t-statistika), un tas ir pamats intervāla novērtēšana un hipotēzes pārbaude iekš vienvirziena lineārās regresijas modelis.

    Pierādījums. To pierāda fakts, ka:

    [ sākas epsilon_i sim mathcal(0, sigma ^ 2) iff dfrac < epsilon_i> < sigma> sim mathcal(0,1) beigas ] tad kvadrātu neatkarīgo standartizēto atlikumu summai ir hī kvadrāta sadalījums ar (N ) brīvības pakāpēm: [ summa_^ N pa kreisi ( dfrac < epsilon_i> < sigma> right) ^ 2 sim chi ^ 2_N ] Tā kā patiesās kļūdas nav novērojamas, mēs tās aizstājam ar OLS atlikumiem, tad nejaušais mainīgais ( widehat < sigma> ^ 2 ) ir hī kvadrāta sadalījums ar (N-2 ) brīvības pakāpēm: [V = dfrac < sum_^ N widehat < epsilon> ^ 2_i> < sigma ^ 2> = dfrac <(N-2) widehat < sigma> ^ 2> < sigma ^ 2> = left ( dfrac< sigma ^ 2> pa labi) widehat < sigma> ^ 2 sim chi ^ 2_ ] No iepriekš definētā (Z_i sim mathcal(0,1) ) un nesen definēto (V sim chi ^ 2_) mēs varam definēt šādu nejaušu mainīgo: [t_i = dfrac< sqrt> sim t_ <(N-2)> ] aizstājot izteiksmes (Z_i ) un (V ), var pierādīt, ka: [t_i = dfrac < widehat < beta> _i - beta_i> < teksts( widehat < beta> _i)> ]

    (T ) -sadalījuma 95. procentilei ar (N-2 ) brīvības pakāpēm vērtībai (t _ <(0,95, N-2)> ) ir īpašība, kurai (0,95 ) varbūtība krīt pa kreisi: ( mathbb

    kreisais (t_ <(N-2)> leq t_ <(0,95, N-2)> labais) = 0,95 ), kur (t _ <(N-2)> ) ir no (t ) -dalījums ar (N-2 ) brīvības pakāpēm.

    Ja aplūkojam statistisko tabulu ar procentiles vērtībām (t ) -sadalījumam, mēs varam atrast a kritiskā vērtība (t_c ), piemēram: [ mathbb

    (t_i geq t_c) = mathbb

    (t_i leq -t_c) = dfrac < alpha> <2> ] kur ( alfa ) ir varbūtība, parasti ( alfa = 0.01 ), ( alfa = 0.05 ) vai ( alfa = 0,1 ). Kritiskā vērtība (t_c ) (N-2 ) brīvības pakāpēm ir procentile (t ) -distribution (t _ <(1- alfa / 2, N-2)> ) vērtība.


    15.6. Salīdzinot vairāk nekā divus līdzekļus

    Bieži vien mēs vēlamies salīdzināt vairāk nekā divus līdzekļus, lai noteiktu, vai kāds no tiem atšķiras viens no otra. Pieņemsim, ka mēs analizējam klīniskā izmēģinājuma datus augsta asinsspiediena ārstēšanai. Pētījumā brīvprātīgie tiek randomizēti vienā no trim apstākļiem: 1., 2. vai placebo. Ģenerēsim dažus datus un tos uzzīmēsim (sk. 15.4. Attēlu)

    15.4. Attēls: Kastrādes diagrammas, kas parāda asinsspiedienu trim dažādām mūsu klīniskā pētījuma grupām.

    15.6.1. Dispersijas analīze

    Vispirms mēs vēlētos pārbaudīt nulles hipotēzi, ka visu grupu vidējie rādītāji ir vienādi - tas ir, nevienai no ārstēšanas metodēm nebija nekādas ietekmes, salīdzinot ar placebo. Mēs to varam izdarīt, izmantojot metodi, ko sauc dispersijas analīze (ANOVA). Šī ir viena no psiholoģiskajā statistikā visbiežāk izmantotajām metodēm, un mēs šeit tikai saskrāpēsim virsmu. ANOVA pamatideja ir tā, par kuru mēs jau runājām nodaļā par vispārējo lineāro modeli, un faktiski ANOVA ir tikai nosaukums konkrētai šāda modeļa versijai.

    No pēdējās nodaļas atcerieties, ka mēs varam sadalīt kopējo datu dispersiju ( (SS_)) dispersijā, kuru izskaidro modelis ( (SS_)) un dispersija, kas nav ( (SS_)). Pēc tam mēs varam aprēķināt a vidējais kvadrāts katram no tiem, dalot tos ar viņu brīvības pakāpēm kļūdai, tas ir (N - p ) (kur (p ) ir aprēķināto līdzekļu skaits), un modelim tas ir ( p - 1 ):

    Ar ANOVA mēs vēlamies pārbaudīt, vai modeļa radītā dispersija ir lielāka par to, ko mēs sagaidīsim nejauši, saskaņā ar nulles hipotēzi par atšķirību starp vidējiem rādītājiem. Tā kā t sadalījumam paredzamā vērtība saskaņā ar nulles hipotēzi ir nulle, tas tā nav šajā gadījumā, jo kvadrātu summas vienmēr ir pozitīvi skaitļi. Par laimi ir vēl viens teorētisks sadalījums, kas apraksta, kā kvadrātu summu attiecības tiek sadalītas saskaņā ar nulles hipotēzi: F sadalījumu (skat. 15.5. attēlu). Šim sadalījumam ir divas brīvības pakāpes, kas atbilst skaitītāja (kas šajā gadījumā ir modelis) un saucēja (kas šajā gadījumā ir kļūda) brīvības pakāpēm.

    15.5. Attēls: F sadalījums zem nulles hipotēzes dažādām brīvības pakāpju vērtībām.

    Lai izveidotu ANOVA modeli, mēs paplašinām ideju manekena kodēšana ar kuru saskāries pēdējā nodaļā. Atcerieties, ka t testam, salīdzinot divus vidējos parametrus, mēs izveidojām vienu manekena mainīgo, kura vērtību vienam no nosacījumiem izmantoja 1, bet pārējiem - nulli. Šeit mēs paplašinām šo ideju, izveidojot divus fiktīvos mainīgos, no kuriem viens kodē nosacījumu Narkotika 1, bet otrs - nosacījumu Narkotika 2. Tāpat kā t-testā, mums būs viens nosacījums (šajā gadījumā placebo), kuram nav fiktīva mainīgā, un tādējādi tas atspoguļo bāzes līniju, ar kuru salīdzina pārējos, tā vidējais nosaka modeļa pārtveršanu. Izmantojot 1. un 2. narkotiku fiktīvo kodēšanu, mēs varam pielāgot modeli, izmantojot to pašu pieeju, kuru izmantojām iepriekšējā nodaļā:

    Šīs komandas iznākums mums nodrošina divas lietas. Pirmkārt, tas parāda t-testa rezultātu katram no manekena mainīgajiem lielumiem, kas būtībā norāda, vai katrs no nosacījumiem atšķiras no placebo, šķiet, ka 1. narkotika, bet 2. narkotika nav. Tomēr paturiet prātā, ka, ja mēs vēlētos interpretēt šos testus, mums būs jālabo p vērtības, lai ņemtu vērā faktu, ka esam veikuši vairākus hipotēzes testus, piemērā, kā to izdarīt, mēs redzēsim nākamajā nodaļā.

    Atcerieties, ka hipotēze, kuru mēs vēlējāmies pārbaudīt, bija tāda, vai pastāv kāda atšķirība starp kādu no nosacījumiem, kurus mēs omnibus hipotēzes pārbaude, un F testā to nodrošina tests. F statistika mums pamatā norāda, vai mūsu modelis ir labāks par vienkāršu modeli, kas vienkārši ietver pārtveršanu. Šajā gadījumā mēs redzam, ka F tests ir ļoti nozīmīgs, kas atbilst mūsu iespaidam, ka, šķiet, starp grupām pastāv atšķirības (kuras patiesībā mēs zinām, ka tādas bija, jo mēs izveidojām datus).


    Uzticamības intervāls ar normālu sadalījumu / Z-sadalījumu

    Noskatieties videoklipu, lai iegūtu piemēru:

    Ja nezināt sava vidējā iedzīvotāju skaita (& mu), bet jūs zināt standarta novirzi (& sigma), varat atrast ticamības intervālu populācijas vidējam skaitlim ar formulu:
    x & # 772 & plusmn z * & sigma / (& & radicn),

    Problēmas piemērs: Izveidojiet 95% ticamības intervālu eksperimentam, kurā tika konstatēts, ka vidējā parauga temperatūra noteiktai pilsētai augustā bija 101,82 ar iedzīvotāju standartnovirzi 1,2. Šajā eksperimentā bija 6 paraugi.

    1. darbība: Atņemiet ticamības līmeni (jautājumā dots kā 95 procenti) no 1 un pēc tam daliet rezultātu ar diviem. Tas ir jūsu alfa līmenis, kas apzīmē apgabalu vienā astē.
    (1 – .95) / 2 = .025

    2. darbība: No 1. soļa atņemiet rezultātu no 1 un pēc tam skatiet šo apgabalu augšup z-tabulas vidū, lai iegūtu z-punktu:

    3. solis: Pievienojiet skaitļus formulas otrajai daļai un atrisiniet:
    z * & sigma / (& radicn)
    = 1,96 * 1,2 / & radikāls (6)
    = 1.96 * 0.49
    = 0.96

    4. solis: Diapazona apakšējam galam atņemiet 3. soli no vidējā.
    101.82 – 0.96 = 100.86

    5. darbība: Diapazona augšējai daļai pievienojiet vidējo 3. soli.
    101.82 + 0.96 = 102.78.


    Uzticēšanās intervāla izpratne

    Uzticamības intervāli nosaka nenoteiktības vai noteiktības pakāpi paraugu ņemšanas metodē. Viņi var noteikt jebkādu varbūtības robežu skaitu, visbiežāk sastopamais ir 95% vai 99% ticamības līmenis. Uzticamības intervālus veic, izmantojot statistikas metodes, piemēram, t-testu.

    Statistiķi izmanto ticamības intervālus, lai izmērītu nenoteiktību mainīgajā izlasē. Piemēram, pētnieks nejauši izvēlas dažādus paraugus no vienas populācijas un katram paraugam aprēķina ticamības intervālu, lai redzētu, kā tas var attēlot populācijas mainīgā patieso vērtību. Rezultātā iegūtās datu kopas ir atšķirīgas. Daži intervāli ietver patieso populācijas parametru, bet citi ne.

    Uzticamības intervāls ir vērtību diapazons, kas norobežots virs un zem statistikas vidējā, un, visticamāk, saturētu nezināmu kopas parametru. Uzticamības līmenis attiecas uz varbūtības vai noteiktības procentuālo daļu, ka ticamības intervāls saturētu patieso populācijas parametru, ja daudzreiz atlasāt nejaušu izlasi. Vai tautas valodā runājot, "mēs esam par 99% pārliecināti (ticamības līmenis) ka lielākā daļa šo paraugu (ticamības intervāli) satur patieso populācijas parametru. "

    Lielākais kļūdainais uzskats par ticamības intervāliem ir tāds, ka tie atspoguļo attiecīgā parauga datu procentuālo daļu, kas ietilpst starp augšējo un apakšējo robežu. Piemēram, var kļūdaini interpretēt iepriekšminēto 99% ticamības intervālu no 70 līdz 78 collām, norādot, ka 99% izlases parauga datu atrodas starp šiem skaitļiem. Tas ir nepareizi, lai gan šādas noteikšanas veikšanai pastāv atsevišķa statistiskās analīzes metode. Tas nozīmē, ka jāidentificē parauga vidējā un standartnovirze un jāpiezīmē šie skaitļi zvana līknē.

    Uzticība intervāls un pārliecību līmenī ir savstarpēji saistīti, bet nav tieši tādi paši.


    9.1 Matricas pieeja regresijai

    Mūsu iepriekš minētajā piemērā mēs izmantojām divus prediktoru mainīgos, taču tas prasīs tikai nedaudz vairāk darba, lai atļautu patvaļīgu skaitu prediktoru mainīgo un iegūtu to koeficientu aprēķinus. Mēs varam apsvērt modeli,

    [Y_i = beta_0 + beta_1 x_ + beta_2 x_ + cdots + beta_ x_ + epsilon_i, qquad i = 1, 2, ldots, n ]

    kur ( epsilon_i sim N (0, sigma ^ 2) ). Šajā modelī ir (p - 1 ) prediktora mainīgie, (x_1, x_2, cdots, x_). Kļūdu dispersijai kopumā ir (p ) ( beta ) parametri un viens parametrs ( sigma ^ 2 ). (Jāatzīmē, ka gandrīz tikpat bieži autori izmantos (p ) kā pareģotāju skaitu, veidojot kopējo ( beta ) parametru (p + 1 ) skaitu. Jums vienmēr tas ir kaut kas jāapzinās, lasot par vairāku regresiju. Nav standarta, kas tiek izmantots visbiežāk.)

    Ja mums vajadzētu sakraut (n ) lineāros vienādojumus, kas katru (Y_i ) apzīmē kolonnu vektorā, mēs iegūstam sekojošo.

    [ sākas Y_1 Y_2 vdots Y_n beigas = sākas 1 & amp x_ <11> & amp x_ <12> & amp cdots & amp x_ <1 (p-1)> 1 & amp x_ <21> & amp x_ <22> un amp cdots & amp x_ <2 (p-1)> vdots & amp vdots & amp vdots & amp & amp vdots 1 & amp x_ & amp x_ & amp cdots & amp x_ beigas sākas beta_0 beta_1 beta_2 vdots beta_ beigas + sākas epsilon_1 epsilon_2 vdots epsilon_n end ]

    [Y = sākas Y_1 Y_2 vdots Y_n beigas, quad X = sākas 1 & amp x_ <11> & amp x_ <12> & amp cdots & amp x_ <1 (p-1)> 1 & amp x_ <21> & amp x_ <22> un amp cdots & amp x_ <2 (p-1)> vdots & amp vdots & amp vdots & amp & amp vdots 1 & amp x_ & amp x_ & amp cdots & amp x_ beigas, quad beta = sākas beta_0 beta_1 beta_2 vdots beta_ beigas, quad epsilon = sākas epsilon_1 epsilon_2 vdots epsilon_n end ]

    [y = sākas y_1 y_2 vdots y_n beigas ]

    Tāpat kā iepriekš, mēs varam novērtēt ( beta ), samazinot

    [f ( beta_0, beta_1, beta_2, cdots, beta_) = summa_^(y_i - ( beta_0 + beta_1 x_ + beta_2 x_ + cdots + beta_ x_))^2, ]

    kas prasītu ņemt (p ) atvasinājumus, kuru rezultātā seko normālie vienādojumi.

    Normālos vienādojumus matricas pierakstā var ierakstīt daudz kodolīgāk,

    Pēc tam mēs varam atrisināt šo izteiksmi, reizinot abas puses ar (X ^ top X ) apgriezto vērtību, kas pastāv, ja (X ) kolonnas ir lineāri neatkarīgas. Tad kā vienmēr savu risinājumu apzīmējam ar cepuri.

    [ cepure < beta> = pa kreisi (X ^ augšā X pa labi) ^ <-1> X ^ augšā y ]

    Lai pārliecinātos, ka tas ir tas, ko R ir darījis mūsu labā divu prognozētāju gadījumā, mēs izveidojam (X ) matricu. Ņemiet vērā, ka pirmajā kolonnā ir visas 1 un pārējās kolonnās ir dati.

    [ hat < beta> = sākas -14.6376419 -0.0066349 0.761402 end ]

    Mūsu jaunajā apzīmējumā var ierakstīt piemērotās vērtības

    Tad mēs varam izveidot atlikušo vērtību vektoru,

    [e = sākas e_1 e_2 vdots e_n beigas = sākas y_1 y_2 vdots y_n beigas - sākas cepure_1 cepure_2 vdots cepure_n beigās. ]

    Visbeidzot, mēs varam atjaunināt savu aprēķinu par ( sigma ^ 2 ).

    Atgādinām, ka mums šis aprēķins patīk, jo tas ir objektīvs, tas ir,

    Ņemiet vērā, ka SLR novērtējuma maiņa uz tagad ir saucējā. Konkrēti mēs tagad dalām ar (n - p ), nevis (n - 2 ). Vai faktiski mums jāatzīmē, ka SLR gadījumā ir divi ( beta ) parametri un tādējādi (p = 2 ).

    Ņemiet vērā arī to, ka, ja mēs atbilstam modelim (Y_i = beta + epsilon_i ), tas ( hat = josla) un (p = 1 ) un (s_e ^ 2 ) kļūtu

    kas, iespējams, ir pati pirmā standartnovirzes parauga, ko redzējāt matemātiskās statistikas klasē. Šajā gadījumā tas pats (n - 1 ) iemesls, ka mēs novērtējām vienu parametru, tāpēc mēs zaudējam vienu brīvības pakāpi. Tagad kopumā mēs novērtējam (p ) parametrus, ( beta ) parametrus, tāpēc mēs zaudējam (p ) brīvības pakāpes.

    Atcerieties arī, ka visbiežāk mūs interesēs (s_e ), atlikusī standarta kļūda, kā to sauc R,

    R, kā mēs redzējām iepriekš, mēs varētu tieši piekļūt (s_e ) piemērotam modelim.

    Un tagad mēs varam pārbaudīt, vai mūsu iepriekš aprakstītā matemātika patiešām aprēķina vienādus lielumus.


    10.3. Statistiskā jauda

    Atcerieties no iepriekšējās nodaļas, ka saskaņā ar Neimana-Pīrsona hipotēzes testēšanas pieeju mums jānorāda tolerances līmenis divu veidu kļūdām: viltus pozitīviem (kurus viņi sauca I tipa kļūda) un nepatiesi negatīvi (kurus viņi sauca II tipa kļūda). Cilvēki bieži koncentrējas uz I tipa kļūdām, jo ​​nepatiesi pozitīvu apgalvojumu parasti uzskata par ļoti sliktu lietu, piemēram, tagad diskreditētie pamodinājumi: 1999. gads, ka autisms bija saistīts ar vakcināciju, izraisīja pretvakcinācijas noskaņojumu, kā rezultātā ievērojams bērnu slimību, piemēram, masalu, pieaugums. Tāpat mēs nevēlamies apgalvot, ka zāles izārstē slimību, ja tā patiešām nav. Tāpēc I tipa kļūdu pielaide parasti tiek noteikta diezgan zema, parasti ( alpha = 0.05 ). Bet kā ar II tipa kļūdām?

    Jēdziens statistiskā jauda ir II tipa kļūdas papildinājums - tas ir, varbūtība atrast pozitīvu rezultātu, ņemot vērā, ka tas pastāv:

    Vēl viens svarīgs Neimana-Pīrsona modeļa aspekts, par kuru mēs iepriekš neapspriedām, ir fakts, ka papildus pieņemamo I un II tipa kļūdu līmeņu norādīšanai mums jāapraksta arī īpaša alternatīva hipotēze - tas ir, kas ir efekta lielumu, kuru mēs vēlamies atklāt? Pretējā gadījumā mēs nevaram interpretēt ( beta ) - liela efekta iespējamība vienmēr būs lielāka nekā neliela efekta atrašana, tāpēc ( beta ) būs atšķirīga atkarībā no tā, kāda ietekme mums ir mēģina atklāt.

    Ir trīs faktori, kas var ietekmēt jaudu:

    • izlases lielums: lielāki paraugi nodrošina lielāku statistisko jaudu
    • efekta lielums: dotajam dizainam vienmēr būs lielāka jauda, ​​lai atrastu lielu efektu nekā mazs efekts (jo lielu efektu atrašana ir vieglāka)
    • I tipa kļūdu līmenis: Pastāv saistība starp I tipa kļūdu un jaudu tā, ka (ja viss pārējais ir vienāds), samazinot I tipa kļūdu, samazināsies arī jauda.

    Mēs to varam redzēt, izmantojot simulāciju. Vispirms simulēsim vienu eksperimentu, kurā mēs salīdzinām divu grupu vidējos rādītājus, izmantojot standarta t testu. Mēs mainīsim efekta lielumu (norādīts Koena d), I tipa kļūdu līmeni un izlases lielumu, un katram no tiem mēs pārbaudīsim, kā tiek ietekmēta nozīmīgo rezultātu proporcija (t.i., jauda). 10.4. Attēlā parādīts piemērs tam, kā jauda mainās atkarībā no šiem faktoriem.

    10.4. Attēls. Jaudas simulācijas rezultāti, parādot jaudu kā parauga lielumu, efektu izmērus parādot kā dažādas krāsas un alfa - līnijas tipu. Standarta 80% jaudas kritēriju parāda punktēta melna līnija.

    Šī simulācija parāda, ka pat ar parauga lielumu 96 mums būs salīdzinoši maz spēka atrast nelielu efektu ( (d = 0.2 )) ar ( alfa = 0.005 ). Tas nozīmē, ka būtu jāveic pētījums, kas paredzēts tam veltīgs - tas ir, gandrīz garantēts, ka nekas netiks atrasts, pat ja pastāv šāda izmēra patiesa ietekme.

    Ir vismaz divi svarīgi iemesli, kāpēc rūpēties par statistikas spēju. Vienu no tiem mēs apspriedīsim šeit un pie kuriem mēs atgriezīsimies nodaļā. ??. If you are a researcher, you probably don’t want to spend your time doing futile experiments. However, running an underpowered study is essentially futile, because it means that there is a very low likelihood that one will find an effect, even if it exists.

    10.3.1 Power analysis

    Fortunately, there are tools available that allow us to determine the statistical power of an experiment. The most common use of these tools is in planning an experiment, when we would like to determine how large our sample needs to be in order to have sufficient power to find our effect of interest.

    Let’s say that we are interested in running a study of how a particular personality trait differs between users of iOS versus Android devices. Our plan is collect two groups of individuals and measure them on the personality trait, and then compare the two groups using a t-test. In order to determine the necessary sample size, we can use the pwr.t.test() function from the pwr library.

    This tells us that we would need at least 64 subjects in each group in order to have sufficient power to find a medium-sized effect. It’s always important to run a power analysis before one starts a new study, to make sure that the study won’t be futile due to a sample that is too small.

    It might have occurred to you that if the effect size is large enough, then the necessary sample will be very small. For example, if we run the same power analysis with an effect size of d=3, then we will see that we only need about 3 subjects in each group to have sufficient power to find the difference.

    However, it’s rare in science to be doing an experiment where we expect to find such a large effect – just as we don’t need statistics to tell us that 16-year-olds are taller than than 6-year-olds. When we run a power analysis, we need to specify an effect size that is plausible for our study, which would usually come from previous research. However, in Chapter ?? we will discuss a phenomenon known as the “winner’s curse” that likely results in published effect sizes being larger than the true effect size, so this should also be kept in mind.