neti.ee ja sitemap.xml

Laupne saade Kain Kaljuga (kuula netis, lae alla MP3 29.7MB) keerles mõistagi neti.ee ümber, räägime nii kasutajate harjumustest kui otsimootori raskustest kodumaise sisuhaldusega toimetulekul (10% netie.ee indeksis olevatest aadressidest sisaldavad ?id=123, 1/3 aga .php) – probleeme on hulgi alates neist samadest URLidest, kasutajasõbralikest veateatelehtedest mis serveeritakse ilma otsimootorile arusaadava 404 staatus-koodita jne jne jne. Sellest võiks eraldi workshopi korraldada asjassepuutuvatele turuosalistele.

AGA Kain viskas välja ka ühe konkreetse kinda sisuhaldustarkvara-tootjatele: nimelt lubas ta implementeerida 1. oktoobriks neti.ee jaoks sitemap.xml toe (mis on muideks lahenduseks valdavale enamusele küsimustest, mis ta pärast E!10 ettekannet sai).

HÄSTI LÜHIDALT: Google’i algatatud standard sitemap.xml on otsimootorile arusaadavas vormingus fail kus on kirjas kõik (või vähemalt värksemad) vastava veebisaidi lehekülgede URLid koos viitega millal on nende sisu viimati uuendatud, mis on selle URLi olulisus konkreetse veebi kontekstis ning eeldatav uuenemissagedus (nt kord nädalas). Standard pakub muuhulgas võimaluse megasuurte saitide sitemap’id juppideks jagada ja kokku zippida, ehk siis see tehnoloogia on vabalt kasutatav ka ajalehe võrguväljaande vms sisurikka saidi puhul.

Mõistagi on selle loomiseks vaja pisikest (aga tõesti pisikest) arendust veebilehe tarkvara loojalt ning Kaini kinnas on seega heidetud neile Eesti firmadele, kes on loonud masskasutuses olevad sisuhaldustarkvarad.

Kuivõrd tegemist ei ole niivõrd uue ja innovaatilise featuuriga kui ühe väga loomuliku sisuhalduse osaga mis võiks olla juba ammu lahendatud, siis on minu täiendus Kaini omale see, et kes sitemap’iga maha saab võiks selle vaikimisi lubada kõigile oma klientide saitidele (standardsest kohast leidmiseks ei pea ju isegi eraldi neti.ee’d teavitama).

Olgu siinkohal positiivse näitena RSSi toetamise vallast toodud Saurus, kes minu trügimise peale oma mooduli kõigepealt korda tegi (et tulemus ikka valideeruks) ja siis ka vabaks andis. Sama oleks nüüd vaja sitemap’i jaoks.

Vot. Tehtagu.

Postitatud rubriiki Arhiiv. Talleta püsiviide. Kommenteerimine ja trackback-viidete lisamine ei ole lubatud.
  • Gunnar

    Oeh, oleks selle kodumaise softiga nii lihtne, et tehke aga ära, mehed. Seni, mis ma näinud olen siinse turu toodangust, on ikka suht räme ja enne kui inimestele XML kohale jõuab, võiksid nad PHP-gi elementaarsel tasemel endale selgeks teha.
    :)

    • Muidumeez

      Kodumaiste CMS-ide kvaliteet on asi, millest ei ole eriti räägitud (või on?). Olles mitmeid nn CMS-e lähedalt näind, olen hüüdnud: Issand, sa näed, aga ei mürista.
      Aga mis puutub sitemap.xml-i tegemisse, siis see ei peaks küll kellelgi üle jõu käima. Enda süsteemile lisasin selle vidina 10 minutiga.

    • Peeter Marvet

      ükskord elus olen ma ristivastu heale ajakirjandustavale rõhutatult positiivne, näitan välja usku kaaskodanikesse ja üritan kõiki oma optimismiga nakatada… ning nimelt siis tuled muidugi sina oma hüperrealismiga :-)

      sitemap on üks maailma lihtsamaid XMLe, seal pole vaja tegeleda ilurikkujatega nagu täpitähed ning isegi kuupäeva puhul võib piirduda yyyy-mm-dd ning mitte koormata oma aju küsimustega laadis “aga onju, et selline sõna nagu idaeuroopastandardaeg on kah time zone designator millest kogu maailma parserid aru saavad, eksju?”

    • tarmo888

      Väga tore, kutsume kõik üles revolutsioonile eesti internetimaastikul.

      Probleem just ongi kliendi teadlikuses osas. Paljudele piisab sellest kui nende lehekülg oleks neti.ee lehel olemas ja et külalised leiaksid neid nende domeeninime järgi üles sealt.

      Tõenäoliselt saab enamik sisuhaldustele ilma kuluteta lisada sitemap’i (kas siis staatiliselt üles laetav või dünaamiliselt genereeritav). Kuid kas inimene ise viitsiks seda sitemap’i ise genereerida, vaevalt, võibolla ainult alguses ja me oleks lõpuks ikkagi lõhkise küna ees kus sitemap ei vasta sellele, mis lingid tegelikult olemas on.

      Tasuta saaks ka nõuda sisuhalduse haldajalt unikaalset pealkirja, kuid ka siin ei oska ükski klient seda küsida, pakun et mõned võivad täiega vastu vaielda, et nemad tahavad pidevalt ainult firmanime pealkirjas näha.

      Aga üht asja mida kindlasti tasuta ei saa, see on optimiseerimine (ilma parameetriteta aadressid), see on täielikult e-turundus teenus ja nõuaks paljudel suure osa tarkvarast ümberkirjutada.

      neti.ee uudis sitemap kohta on väga tore ja veel toredam oleks kui saaks neti.ee ise lisama võtmesõnade järgi rss feed’id (nagu blog.tr.ee lehel).

      Ise soovitan tuttavatele ainult teha kodulehed selliste sisuhaldustega, mis saavad otsingumootoritega sõbralikult läbi.

    • Peeter Marvet

      RSSide iselisamist peaks mõtlema jah, eriti kuna sitemaps.org tunnistab RSSi (isegi URLidega tekstifaili) sitemap’ina.

      Ja neil kellel RSS saidis olemas võiks see olla ka HTMLis kirjas et brauserite autodiscovery toimiks – siis me saaks selle projekti käigus korraga mitu kärbest vagaseks :-)

      Õigupoolest tekkis mul täna mõte paluda, et Kain teeks miski edetabeli moodi asja – laseks korraks kõigile indeksis olevatele saitidele peale kontrolli kas seal on leitav sitemap.xml (lihtsalt juurikas või robots.txt’is viidatuna) ja/või veebilehe koodist autodiscovery RSS jaoks (<link rel=”alternate” type=”application/rss+xml” title=RSS href=”url/to/rss/file”>)

      Sealt saaks kätte ka kampaania edukuse mõõdiku: täna on n%, kuu aja pärast m%, eesmärk z%…

      haa, muideks, isegi Riigikogul on olemas lisandunud dokumentide fail, ma tegin kunagi selle peale ühe häki. kiituseks olgu öeldud, et nad tekitasid selle nii alla 24h :-)

    • tarmo888

      lihtsalt juurikas sitemap.xml ei oleks vast hea kontrollida, see hakkaks tekitama veel üht 404 serveri logisse, pikem ikka robots.txt või rel=”alternate”.

      kõige suurim hirm sellise promo juures on mul hetkel see, et kui praegu kõik kuulevad seda uut sitemaps asja, hakkatakse suure hoolega neid käsitsi mingite programmidega vorpima ja siis kui buum üle läheb, siis unustatakse selle olemasolu ja neti.ee otsingumootor hakkab ikka mingeid aegunuid url’e külastama, mis tavaliselt 404 vastust ka ei anna.

      ise õnneks ei ole sellist sisuhaldust kogenud, mis iga salvestamisega uue ID genereerib ja siis seda url’is kasutab, aga kas jutt podcastis käis Sauruse kohta?

      mis aga kaasa aitaks neti.ee lehel sitemap toe promomist oleks see kui neti.ee lisaks reale kus on [puhvrist] lingi [lehe kaart], ehk siis võimalus näha iga sitemap toega lehe linke viimase muudatuse kuupäevaga neti.ee lehe enda sees. on küll natuke diskrimineeriv, kuid õiglane oleks toetada neid kellel see olemas on on. tulemus oleks nagu google’i “site:domeeninimi.ee”, aga ainult neile kellel on sitemap tugi. samal lehel saaks ka panna teksti, mis asi on sitemaps ja kuidas seda nõuda sisuhaldus tarkvara loojate käest.

      üks asi mida kindlasti soovitaks oleks see et neti.ee kuvaks tulemuste ees pisikest 16×16 favicon faili. see on ka üks selline asi, mida veebilehitsejad iseenesest kontrollivad kas on olemas ja miks mitte siis see väike pildike salvestada neti.ee serveris kõigi kohta kellel see on. põhimõtteliselt võiksid sellised väiksed preemiad olla webmasteritele kes teevad web2.0 lehti. kahjuks ei usu et selline ideest oleks neti.ee vaimustatud, sest neil on pildiga võimalus pakutud raha eest juba.

    • René

      Hetkel peab igaüks ise oma sitemapist Google’ile teada andma: täitma vastava veebivormi ja panema saidi juurikasse kontrollfaili et too ikka usuks et see sinu sait on. Samas ei nõua Google et faili nimi peaks just sitemap.xml olema; oleme Sauruses kasutanud erinevaid nimekujusid, sh ka ilma XML laiendita.

      Kas on luureinfot kuidas Netis hakkab olema?

    • tarmo888

      Google’ile ei pea andma Sitemap’ist teadma, lihtsalt see lisavõimalus on Google Webmasters lehel olemas. Väidetavalt loevad nad ikkagi sitemap olemasolu robots.txt failist, nagu kõik teisedki robotid. Eeldan, et neti.ee hakkab ka robots.txt failist seda infot lugema.

      http://www.sitemaps.org/protocol.php#submit_robots

      kui muidu võib robots.txt fail puududa või olla tühi, siis sitemap viite lisamisel peab seal olema juba mingisugust robotite infot. vähemalt üks validaator ei valideerinud ära kui olin ainult viite sitemap’ile lisatud robots.txt faili. kui ei soovi ühtegi robotit piirata, siis vaikimisi tekst oleks

      User-agent: *
      Disallow:
      Sitemap: http://domeeninimi.ee/mingisugune.sitemap.aadress

    • Peeter Marvet

      Google’i tööriist kus peab imeliku nimega faili veebi panema on selline seepärast, et sa ei saaks inffi sulle mitte kuuluva saidi indekseerimise kohta. robots.txt autodiscovery on tõenäoliselt lihtsaim lahendus ja kui selle poole toimima saab siis võib ju mõelda edasi neti.ee poolse tagasiside peale…

    • Mika Tuupola

      I do now know how many others in Estonia run their blog on Mephisto / Ruby on Rails. I might be the only one? If anyone does I recently wrote sitemap support for it.

      http://www.appelsiini.net/projects/mephisto_sitemap

      PS. Even though I write in english I fully understand estonian. So no need to asnwer in english. Those k’s and g’s and t’s and d’s are just too confusing to write ;)

    • Peeter Marvet

      sama probleem mul ä-dega soome keeles :-)

      aga mulle tundub (blog.tr.ee järgi), et valdav enamus on blogger ja siis tuleb tillem kommuun WordPressi kasutajaid. ausalt polegi nagu palju muud märganud. või on?

    • Joosep-Georg Järvemaa

      Saates mainitud osale.ee näiteks RSS viiteid ei paku, saatsin neile järelepärimise.

  • Viimane veerg

    Mina olen Peeter Marvet (pets@tehnokratt.net). Ei saa täielikult välistada, et see siin oli kunagi minu ajaveeb. Kirjapandu ei pruugi väljendada seisu- ega istmekohti. Seoses surutisega esilehe mahtu vähendatud 8%. Lisandub käibemaks, Tallinna elanikel ka müügi- ja paadimaks. Pakendatud gaasikeskkonda. Valmistatud arvutis milles võib leiduda väheses koguses piima- ja pähklitükke. Ei sisalda hüdrogeenitud (transarasvavabasid) taimseid rasvhappeid, sisaldab vahustatud lämmastikku.