Re: tiedostojen imurointia...

[vastaus aiempaan viestiin]

Kirjoittaja: Petri Palmu
Sähköposti:    -
Päiväys: 13.4.2008 12:50

Netinkin osalta vahvistuu Survon rooli eräänlaisena toimintojen
"komentokeskuksena". Survosta minulla on myös vähitellen alkanut
muodostua usein tarvittavien nettiosoitteiden (Bookmarks)
sijaintipaikka.

Survon toim.kenttään olen listannut (kommentoiden) komentoja, kuten:

Survon pääsivu
>START FIREFOX http://www.survo.fi/ 

Samaan syssyyn voi toki lisätä kansio- ja tiedostopolkuja:
>START C:\SURVO\KANS1\KANS2\KANS3\
>START C:\SURVO\KANS1\KANS2\KANS3\docu.txt

Sovellusten kohdalla mulla on huono tapa laittaa myös käyttikset
ja salasanat samaan yhteyteen (voihan ne varmaan jotenkin jemmata
toimituskenttään sopivalla salakielellä...)
Sellaista ominaisuutta, jossa nettisovelluksessa tarvittavat login ja
pswd voitaisiin asettaa automatic vähän Sepon googletusominaisuuden
tapaan lienee jo hankalampi virittää (ja kenties ei viisastakaan).
No, tämmöinen vähempiarvoinen "tarve"
kenties vain todistaa sitä, miten mukavuudenhaluiseksi Survo on
käyttäjänsä tehnyt :)

Olen välillä (Survosta käsin) R:llä imuttanut kokonaisia
nettisivuja (R:n funktio download.file() ). Tämän tyyppistähän voisi
ajatella esim. text mining -ongelmissa (vaikkapa systemaattinen
uutiseuranta yle, HS, mtv3,...).
Imuroitua html-tiedostoa pitää sitten jatkokäsitellä
(regular expression -välineillä).

Taannoin oli ihan onnistunut harjoitelma tilanteesta, jossa mun piti
tallentaa erään kurssin kaikki n. 25 pdf-muotoista
luentomateriaalitiedostoa omalle koneelleni. Vaihtoehtoina oli
suorittaa tallennushomma joko klikkailemalla tai sitten ...?

Imuroin R:n download.file("http...") avulla
ensin itse html-tiedoston, josta sitten keräsin kaikki .pdf
tiedostonimien merkkijonot (säännöllisten lausekkeiden avulla)
toiseen tiedostoon.
Lopuksi samaisella download.file() funktiolla
imutin kaikki pdf-tiedostot tiedostokansioon. Kyllä siinä säästyi
aika monta klikkausta :) Ja kun luentomateriaali päivittyy (huom.
myös korjaukset vanhaan matskuun), niin
koko roskan saa hoidettua yhdellä napin painalluksella...

Jatkojalostin itse R-skriptiä
yleiskäyttöisempään muotoon niin, että imurointia voi rajata
periaatteessa minkä tahansa tyyppiseen tiedostoon ja mahd.
avainsanaan (esim. lataa sivuilta kaikki "*vaesto*.xls" -tyyppiset
excel-taulukot). Tosin en ole varma, estyykö imutus jossain tapauksissa
tietoturvasuojausten yms. takia?

t. Petri

Vastaukset:

Survo-keskustelupalstan (2001-2013) viestit arkistoitiin aika ajoin sukrolla, joka automaattisesti rakensi viesteistä (yli 1600 kpl) HTML-muotoisen sivukokonaisuuden. Vuoden 2013 alusta Survo-keskustelua on jatkettu entistäkin aktiivisemmin osoitteessa forum.survo.fi. Tervetuloa mukaan!

Etusivu  |  Keskustelu
Copyright © Survo Systems 2001-2013. All rights reserved.
Updated 2013-06-15.