Survo käyttäjän holhoojana

[viesti Survo-keskustelupalstalla (2001-2013)]

Kirjoittaja: Seppo Mustonen
Sähköposti:    -
Päiväys: 10.3.2005 18:55

Eilisen keskustelun (Matriisi datana) johdosta olisi syytä pohtia
eräitä seikkoja yleiselläkin tasolla systeemin (tässä Survo) ja
käyttäjän välisestä vuorovaikutuksesta.
Pääkysymys on: Miten paljon systeemin on lupa puuttua käyttäjän
tekemiin valintoihin ja tarvittaessa jopa estää virheellisiltä
tuntuvat yritykset?
Saako siis systeemi jossain määrin holhota käyttäjiään?

Survo on mielestäni monessa suhteessa hyvin vapaamielinen, koska
töitä ei tarvitse tehdä ennalta määrättyjä latuja (valikkoja)
seuraten. Hyvinkin eksoottisia toimintojen yhdistelmiä siedetään
ja annetaan tilaa "luovuudelle".

Kuitenkin esim. tilastollisten menetelmien opetuksen yhteydessä
olen pitkään katsonut asialliseksi, että systeemi voi puuttua
epäiltyihin virheellisiin valintoihin.

Ehkä tärkein Survoon sisällytetty "laadunvarmistusmenettely"
on tilastollisten muuttujien mitta-asteikkojen tarkkailu.
Tästä - luullakseni edelleen ainutlaatuisesta ominaisuudesta
tilasto-ohjelmissa - monetkaan Survon käyttäjät eivät liene perillä.
Se on kuitenkin ollut mukana Survossa jo noin 20 vuotta.

Jos esim. tarkastelee KUNNAT-tiedostoa FILE ACTIVATE -komennolla eli
alt-F6-napilla tai poimii rakennetiedot toimituskenttään FILE STATUS
-komennolla, syntyy näkymä
 - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
FILE STATUS KUNNAT,3 / 3=myös asteikkomerkintä näkyville
 Suomen kunnat aakkosjärjestyksessä
 Tiedot ovat pääosin vuosilta 1978-80.   5.2.84/SM
      COND:KUNNAT    SORT:Kunta
FIELDS: (active)
  1 SA-- 16 Kunta  Kunnan nimi
  2 SA-N  3 Lääni  UUS,TUR,AHV,HÄM,KYM,MIK,KAR,KUO,KES,VAA,OUL,LAP
  3 NA-F  4 Väestö  Arvioitu maassa asuva väestö 1.1.1980 (######)
  4 NA-F  4 Synt.  Elävänä syntyneet v.1978 (####)
  5 NA-R  8 Ala   Maapinta-ala km^2 1.1.1979 (#####.##)
  6 SA-I  1 Maamet  Maa- ja metsätaloudessa toimivien osuus (10%)
  7 SA-I  1 Teoll  Teollisuudessa toimivien osuus (10%)
  8 SA-I  1 Palvelu Ammatissa ja palveluelinkeinoissa toim.osuus (10%
  9 NA-F  4 Asuin  Valmistuneet asuinhuoneistot v.1978 (####)
 10 NA-I  4 Äyri   Veroäyrin hinta v.1979 (##.##)
 11 NA-R  2 Tulotaso Veroäyrejä asukasta kohti v.1979 (#####)
 12 NA-R  4 SYNT   1000*Synt../Väestö (##.###)
 13 NA-I  4 RES   residuaalimuuttuja (###.###)
 14 NA-R  4 Astiheys Väestö/Ala (####.##)
END
Survo data file KUNNAT: record=128 bytes, M1=30 L=64 M=14 N=464
 - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
Esim. viidennen rivin
  5 NA-R  8 Ala   Maapinta-ala km^2 1.1.1979 (#####.##)
alussa oleva maski NA-R tarkoittaa, että Ala on numeerinen muuttuja (N)
aktivoitu (A), suojaamaton (-) ja se on suhdeasteikollinen (R).

Asteikkomerkinnöistä, jotka käyttäjä asettaa esim. FILE CREATE-, FILE
ACTIVATE- tai FILE UPDATE-komennon yhteydessä, löytyy kuvaus kyselyllä
 - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
SCALES?
The following codes can be used in mask column 3 when a data file is
activated (by FILE ACTIVATE or FILE_ACT or MASK).

  - no scale (variable is cancelled in all statistical operations)
  D Dichotomy (two distinct numeric values)
  N Nominal
  O Ordinal  (discrete)
  o Ordinal  (continuous)
  S Score   (discrete)
  s Score   (continuous)
  I Interval (discrete)
  i Interval (continuous)
  R Ratio   (discrete)
  r Ratio   (continuous)
  F Frequency

If scale type is omitted (code is blank), no scale control will
be performed and data is accepted in all applications.
 - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

Yllä olevassa listassa asteikkotyypit on lueteltu löysimmästä
tarkimpaan. Niistä saa tietoja useista tilastotieteen oppikirjoista
ja jopa Survon opetusohjelmista (DEMO -> OPETUS
-> A. Tilastolliset menetelmät
-> 2. Tilastollisten toimintojen säätely
-> 4. Muuttujien mitta-asteikot).

Mitta-asteikko määrää, kun asiaa tarkastellaan ankaralla tasolla,
mitä muuttujalle on lupa tehdä tilastollisissa laskelmissa.
Jos asteikko on esim. O,o (O=ordinaali, järjestys), muuttujalle
ei saisi laskea edes keskiarvoa (vaikka arvot ovat numeerisia).

Tällöin siis, jos normaaliasetuksilla Survossa yrittää käyttää
CORR-operaatiota ja liittää aktiivisten muuttujien joukkoon
muuttujan Lääni (asteikko N=nominaalinen,laatuero), tulee
virheilmoitus

CORR KUNNAT
Insufficient scale in variables: Lääni
Interval or score scale required, at least!
Press any key!

ja CORR kieltäytyy laskemasta mitään.

Survon holhoamista voi kuitenkin hillitä SURVO.APU-tiedoston
scale_check-parametrilla, jonka oletusarvo on 2.
Mahdollisista arvoista kertoo jälleen kysely SCALES? seuraavaa:
 - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
The statistical operations observe scale types when desired. The
strictness of scale type control depends on the system parameter
scale_check in the system file SURVO.APU as follows:
   0  no control
   1  warning when a variable with insufficient scale is selected
   2  warning and interrupt of operation

Scale types can be given for variables in Survo data files only.
 - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
Asetuksella scale_check=0 Survo siis veisaa viis mistään
asteikko-ongelmista; aina lasketaan!
Samoin, jos mitään asteikkomerkintöjä ei datatiedostoon ole pantu
(asteikot -), herjoja ei ilmaannu, vaikka scale_check=2.

Koska opetuksen yhteydessä tärkeät operaatiot, kuten CORR, STAT ja
LINREG, tarkkailevat asteikkoja, olisi hyvin suotavaa, että ne,
jotka opettavat Survon avulla tilastollisia menetelmiä, liittäisivät
opetusaineistoihinsa muuttujien asteikkomerkinnät ja harjoituttaisivat
opiskelijoitaan myös laittamaan niitä omiin datatiedostoihinsa (hyvä
tapa patistaa arvioimaan aineiston laatua).

Asteikkotarkkailusta on hyötyä myös muutenkin mm. STAT-operaatiossa,
koska STAT osaa suhtautua tällöin järkevällä tavalla siihen, mitä
yhteenvetoja se kustakin muuttujasta tekee.

Käsiteltäessä laajoja esim. satojen muuttujien aineistoja, joissa
samaa asiaa mittaavista muuttujista on asteikoiltaan erilaisia
muunnelmia, käyttäjä saattaa erehtyä (esim. nimisekaannuksen
vuoksi) valitsemaan huonoimman vaihtoehdon. Tällöin laskennan alkaessa
asteikkovaroitukset voivat paljastaa erehdykset.

Sitten on näitä eilisessä keskustelussa mainitun kaltaisia
erikoistapauksia, joissa Survon jokin ohjelma kieltäytyy perustellusta
syystä jatkamasta toimintaa esim. datan epäilyttävyyden takia.
Myös luokittelu- ja piirrosasteikkojen huonosta valinnasta saattaa
tulla huomautuksia, vaikka valinnat olisivatkin muodollisesti oikein
asetettuja.

Survon peliinpuuttumisten ei tarvitse aina olla kieltäytymisiä vaan
voidaan tyytyä myös pelkkiin varoituksiin (kuten asteikkotarkastelut
asetuksella scale_check=1). Esim. tiedostoja perustettaessa
(FILE CREATE) tulee varoituksia mm. huonoista (esim. numerolla
alkavista) nimistä.

Mielestäni systeemin "älykkyyttä" on edelleen mahdollista lisätä ja
käyttäjiä avustaa tällaisin järjestelyin, mutta asiasta on lupa ajatella
toisinkin.

Huomattakoon, että asteikkotarkistuksia ei ole liitetty toistaiseksi
muihin kuin tilastollisiin perusoperaatioihin. Vaativissa tehtävissä
luotetaan käyttäjien omaan harkintakykyyn.

Toivon, että yhä useampi olisi tietoinen näistä tarkkailukeinoista ja
käyttäisi niitä. Olisi mukava tietää, ketkä jo tällä hetkellä
hyödyntävät näitä Survon ominaisuuksia ja onko ehdotuksia uusista
tarkkailukeinoista tai -tilanteista.

-Seppo Mustonen

Vastaukset:

Survo-keskustelupalstan (2001-2013) viestit arkistoitiin aika ajoin sukrolla, joka automaattisesti rakensi viesteistä (yli 1600 kpl) HTML-muotoisen sivukokonaisuuden. Vuoden 2013 alusta Survo-keskustelua on jatkettu entistäkin aktiivisemmin osoitteessa forum.survo.fi. Tervetuloa mukaan!

Etusivu  |  Keskustelu
Copyright © Survo Systems 2001-2013. All rights reserved.
Updated 2013-06-15.