Uusi MINSTAT-operaatio

[viesti Survo-keskustelupalstalla (2001-2013)]

Kirjoittaja: Seppo Mustonen
Sähköposti:    -
Päiväys: 19.3.2002 18:20

Jo pitempään on ollut mielessäni lisätä perustunnuslukujen laskentaan
uusi operaatio, vaikka tarjolla on entisiäkin (kuten STAT, STATMSF,
CORR, jne.) miltei joka lähtöön.
Uusi MINSTAT (MINimal STATistics) on tarkoitettu helpottamaan
erityisesti sukrojen laadintaa, jotta niissä tarvittavat tunnusluvut
olisi mahdollisimman helppo poimia käyttöön.

MINSTAT toimii jo tällä hetkellä seuraavien esimerkkien tyyliin ja
tulee olemaan mukana versiosta 1.18 alkaen. Koska sitä on mahdollista
vielä kehitellä erilaisten toiveiden suuntaan, kommentoikaa ja
tehkää ehdotuksia.

Esimerkki 1:

VARS=Points,L_jump,Hi_jump,Height,Weight
MINSTAT DECA,CUR+1
Basic statistics of data G:\E\U\D\DECA N=48
Variable  mean   stddev     N minimum  maximum
 Points  7843.479 161.6540    48 7649.000 8206.000
 L_jump  840.1875 50.72859    48 725.0000 951.0000
 Hi_jump  805.8542 64.80511    48 689.0000 925.0000
 Height  186.9583 5.090493    48 173.0000 198.0000
 Weight  85.56250 6.847600    48 68.00000 105.0000

MINSTAT on siis laskenut valituista muuttujista keskiarvon,
keskihajonnan,(puuttumattomien) havaintojen lukumäärän sekä
pienimmän ja suurimman havaintoarvon ja taulukoinut ne
tässä näkyvällä tavalla.
Sen lisäksi MINSTAT tallettaa tulokset myös matriisitiedostona
STAT.M, jonka sisältö näyttää seuraavalta:

MAT LOAD STAT.M
MATRIX STAT.M
Basic_statistics_of_DECA
///     mean  stddev    N minimum maximum
Points  7843.479 161.654  48.000 7649.000 8206.000
L_jump  840.188  50.729  48.000 725.000 951.000
Hi_jump  805.854  64.805  48.000 689.000 925.000
Height  186.958  5.090  48.000 173.000 198.000
Weight   85.563  6.848  48.000  68.000 105.000

STAT.M on sama kuin CORR-modulin laskema MSN.M lisättynä
minimum- ja maximum-sarakkeilla.

...............................................................
Esimerkki 2:

SYSTEM accuracy=6 / Vähennetään tulostustarkkuutta tällä komennolla.
MASK=--AAAAAAAAAA
JITTER=30 / Täsmennys, jolla Valitaan "täristyskynnys"
MINSTAT KUNNAT,CUR+1
Basic statistics of data KUNNAT N=464
Variable  mean   stddev     N minimum maximum #val jitter
 Väestö  10284.7 27836.7   464 127.000  483057   0 0.00000
 Synt.   137.894 368.088   464 1.00000 5851.00   0 0.00000
 Ala    661.633 1310.44   464 5.85000 15251.1   0 0.00000
 Maamet  2.95690 1.84797   464 0.00000 7.00000   8 1.00000
 Teoll   2.50216 1.34694   464 0.00000 6.00000   7 1.00000
 Palvelu  3.09267 1.20027   464 1.00000 8.00000   8 1.00000
 Asuin   119.056 295.835   464 0.00000 4192.00   0 0.00000
 Äyri   16.2251 0.97517   464 13.5000 18.5000  21 0.25000
 Tulotaso 12737.8 3102.74   464 7532.00 29631.0   0 0.00000
 SYNT   12.0223 3.45975   464 2.16920 25.8250   0 0.00000

Nyt taulukkoon tulee 2 lisäsaraketta, joista "#val" kertoo, montako
erilaista arvoa ko. muuttujalla on aineistossa. Jos arvojen määrä
ylittää "täristyskynnyksen", sarakkeeseen tulee 0.
Toinen lisäsarake "jitter" laskee sopivan täristysaskeleen muodossa
jitter=(maximum-minimum)(#val-1) (kun #val>1).
Tästä on hyötyä mm. hajontakuvien piirrossa, jossa on uutena piirteenä
otettu käyttöön XJITTER- ja YJITTER-täsmennykset.
Esim.
GPLOT KUNNAT,Maamet,Palvelu / XJITTER=1 YJITTER=1 SCALE=-1(1)9
piirtää muuttujien Maamet ja Palvelu (joilla #val=8 ja jitter=1)
hajontakuvan niin, että kummankin muuttuna suhteen oikea arvo, esim. a,
korvataan satunnaisella arvolla väliltä (a-0.5,a+0.5).
(Huom. yleisesti suositeltava välin pituus = jitter)
Näin muuten päällekkäisistä pisteistä surkastunut kuva saadaan
uskottavammin kuvaamaan todellista vaihtelua ja riippuvuutta, vaikka
jokainen piste on on hieman poissa paikaltaan.
Tämä tekniikkahan on Survossa ollut käytössä jo ties kuinka kauan
hajontakuvamatriiseissa (TYPE=DRAFTS) ja sitä ovat monet toivoneet
myös tavallisiin hajontakuviin. Nyt tuo toive on toteutunut.

Poimitaan vielä osa KUNNAT-aineistosta saadusta STAT.M-matriisista:
...............................................................
MAT LOAD STAT.M(*,N:jitter),12345678.12,CUR+1
MATRIX STAT.M
Basic_statistics_of_KUNNAT
///        N   minimum   maximum    #val   jitter
Väestö    464.00   127.00  483057.00    0.00    0.00
Synt.     464.00    1.00   5851.00    0.00    0.00
Ala      464.00    5.85  15251.08    0.00    0.00
Maamet    464.00    0.00    7.00    8.00    1.00
Teoll     464.00    0.00    6.00    7.00    1.00
Palvelu    464.00    1.00    8.00    8.00    1.00
Asuin     464.00    0.00   4192.00    0.00    0.00
Äyri     464.00    13.50    18.50    21.00    0.25
Tulotaso   464.00   7532.00  29631.00    0.00    0.00
SYNT     464.00    2.17    25.82    0.00    0.00
...............................................................

Huomattakoon, että yksittäisiä alkioita voi poimia esim.
editoriaalista laskentaa varten tyyliin:
MAT_STAT.M(Äyri,jitter)=0.25
MAT_STAT.M(Äyri,#val)=21

Kaiken tämän pitäisi mm. helpottaa Kimmon Survo-risteilyllä
esittelemän /SCATPLOT-sukron viimeistelyä niin, että
siinäkin pääsee tärisyttämään.

Luonnollisesti MINSTAT tuntee kaikki normaalit tilastollisten
operaatioiden toimintaa säätelevät täsmennykset kuten esim.
IND, CASES, SELECT.

Todellakin, jos on halua saada mukaan vielä muitakin tunnuslukuja,
kertokaa ja perustelkaa!

-Seppo

Vastaukset:
[ei vastauksia]

Survo-keskustelupalstan (2001-2013) viestit arkistoitiin aika ajoin sukrolla, joka automaattisesti rakensi viesteistä (yli 1600 kpl) HTML-muotoisen sivukokonaisuuden. Vuoden 2013 alusta Survo-keskustelua on jatkettu entistäkin aktiivisemmin osoitteessa forum.survo.fi. Tervetuloa mukaan!

Etusivu  |  Keskustelu
Copyright © Survo Systems 2001-2013. All rights reserved.
Updated 2013-06-15.