Bruce Schneier kirjutab oma kolumnis Data Mining for Terrorists sellest mis vahet on andmete kaevandamisel krediitkaardipettuste avastamiseks ja terrorirünnakute ennetamiseks. Pettuseid on palju, rünnakuid vähe. Ja kuidas toimivad ühes/teises olukorras false positive ja false negative signaalid.
Sobib sellesse nädalasse tänu Eduard Smirnovi juhtumile. Tõsi, meil polnud false positive alarmiks isegi andmekaevandust vaja, lihtsalt pisikesed ametnikud otsustasid mängida töötegemist ning kulutasid riigi ja rahva kaitsmiseks mõeldud aja kod. Smirnoviga vestlemiseks ja mingi paki uurimiseks. Tõenäoliselt oli probleemiks Field Demonstration of Permeable Reactive Barriers to Remove Dissolved Uranium from Groundwater, Fry Canyon, Utah [EPA 402-C-00-001] (September 1997 through September 1998, Interim Report) mille leiab kenasti EPA.gov radiatsiooni likvideerimise veebilehelt. Omaette küssa muidugi miks seda üldse peaks CDl postiga tellima, aga see on oluliselt väiksem veidrus võrreldes tellimise pärast vestlusele kutsumisega :-)
Mõistagi pole tegu lokaalse probleemi ehk vaid Eesti ametnikega, sama jama sünnib oluliselt rohkem USAs, vt nt Case against Steve Kurtz/Critical Art Ensemble continues.
Andmekaevandamise teemal Wired’s veel: Chris Anderson kirjutab Jeff Jonas’e uusaastapidudest ja Jeffist endast kah natuke. Ehk siis andmekaevandusest kasiinobisneses ja riikliku julgeoleku tagamisel. Mis mind viitama pani oli lõik:
His work on turning sensitive data sets, such as watch lists, into anonymized hash files is a core piece of IBM’s growing “identity analytics” strategy.
That’s cool, eriti kui mõelda omapäi jalutamas käiva info peale (sama siin). Tõsi küsimus ikkagi selles, et mida annab mõistlikul moel kaevandada. Äkki peaks Jeffi (ja Schneieri) kutsuma KAPOle loengut pidama?
5 Kommentaarid
kuidas eestis sellega lood on?
http://yro.slashdot.org/article.pl?sid=06/03/11/0543249&from=rss
No, yldiselt, minu eesti keel ei ole nii
v2ga kiita ja see, et ma ei viitsi eestikeelset
klaviatuuri sisse lylitada, et r22gi kah just eriti
minu kasuks(Gnome’s on see ymberlylitamine kuidagi
k8vakettalt lugemisega tiguaeglaseks ja muidu
tylikaks tehtud), kuid ametlike tekstide korral
v22rib kyll esile toomist kaks l8iku:
“…turvalisuse eest ja ohutuste vastu”
“Istumisplatsid saalis on piiratud…”
Ohtude vastu, sellest saan ma veel aru, aga ohutuste
vastu? Istumiskohad, istekohad, h2sti, arusaadav, aga
istumisplatsid? Noh, muidugi, mu kriitika on
p8hjendatud ainult siis, kui tegu on eestlaste poolt
kirjutatud tekstidega. Kui tegu on v2lismaalaste poolt kirjutatud tekstiga, siis on minu kommentaar
pigem vastupidine: myts maha nende ees, tunnustuseks.
Mulle tundub, et tegu on pigem müts-maha juhtumiga.
Mille poolest täpselt on andmete 1:1 teisendamine selleks, et neid analüüsija silma eest varjata, millegipoolest eriline ja uus? Eestis tegeleti selliste asjadega edukalt 10+ aastat tagasi (vihje raadiosaates kõlanud soovitusele Statistikaameti suunas) ning ma olen täiesti kindel, et ka praegu on meil piisavalt pädevaid statistikuid, kes teavad, mida kõike võib andmetega teha, ilma et need statistilise analüüsi jaoks oma sisu kaotaks.
ei ole uus muidugi :-)
lihtsalt statistikud on alati varmad seletama, et ilma isikuandmeteta ei saa tööd teha. kasutan alati juhust ja viitan näidetele mille kohaselt ikkagi peaks saama.