Kako deluje spletni brskalnik?

04. maj. 2019, ob 11.23
Posodobljeno pred 16 dnevi
745
450 SEK

Dobra novica o internetu in njegovi najvidnejši komponenti, svetovnem spletu, je, da je na voljo na stotine milijonov strani, ki čakajo na predstavitev informacij o neverjetnih temah. Slaba novica o internetu je, da je na voljo na stotine milijonov strani, od katerih jih je večina naslovljenih po muhavosti avtorja, skoraj vse pa so na strežnikih s skrivnostnimi imeni.

Ko hočete izvedeti kaj o določeni temi, kako veste, katere spletne strani naj obiščete?

Če ste kot večina ljudi, uporabite spletni brskalnik.

Spletni brskalnik je posebno spletno mesto na spletu, ki je oblikovan tako, da ljudem pomaga najti informacije, shranjene na drugih spletnih mestih. Obstajajo razlike v načinih delovanja različnih brskalnikov, vendar vsi opravljajo tri osnovne naloge:

  1. Iščejo po internetu – ali izberejo dele interneta – na podlagi ključnih besed.

  2. Vodijo indeks besed, ki jih najdejo in kje jih najdejo.

  3. Uporabnikom omogočajo, da iščejo besede ali kombinacije besed v tem indeksu.

Zgodnji spletni brskalniki so imeli indeks nekaj sto tisoč strani in dokumentov, vsak dan pa so prejeli morda tisoč ali dva tisoč vprašanj. Danes bo najboljši spletni brskalnik indeksiral na stotine milijonov strani in se odzval na desetine milijonov poizvedb na dan. V tem članku vam bomo na kratko razložili, kako se izvajajo te glavne naloge in kako spletni brskalnik združi dele, da boste lahko našli informacije, ki jih potrebujete na spletu.

Spletni brskalnik pomeni iskalnik po spletu. Preden je splet postal najvidnejši del interneta, so že obstajali iskalniki ali brskalniki, ki so pomagali ljudem najti informacije na internetu. Programi z imeni, kot so »gopher« in »Archie«, so hranili indekse datotek, shranjenih na strežnikih, povezanih z internetom, in dramatično zmanjšali čas, potreben za iskanje programov in dokumentov. V poznih osemdesetih letih prejšnjega stoletja je pridobivanje resne vrednosti iz interneta pomenilo vedeti, kako uporabljati gopher, Archie, Veronico in ostale.

Kdo si sploh lahko privošči svoj bazen?
Ste si kdaj predstavljali, kako bi bilo, če bi lahko po napornem dnevu stopili na svojo teraso in se osvežili v kristalno čistem bazenu? Lasten bazen ni več privilegij le redkih – danes je to do

Spletni brskalnik

Danes večina uporabnikov interneta omeji svoje iskanje na splet, zato bomo ta članek omejili na brskalnike, ki se osredotočajo na vsebino spletnih strani.

Preden vam lahko spletni brskalnik pove, kje je datoteka ali dokument, jo je treba najti. Če želite poiskati informacije o več sto milijonih spletnih strani, ki obstajajo, spletni brskalnik uporablja posebne programske robote, imenovane pajki, za izdelavo seznamov besed na spletnih mestih. Ko pajek gradi svoje sezname, se proces imenuje pajkanje po spletu. Da bi ustvarili in vzdrževali koristen seznam besed, imajo pajki nalogo iskalnika pri pregledu spletnih strani.

Kako spletni pajek začne potovati po spletu?

Običajna izhodišča so seznami močno uporabljanih strežnikov in zelo priljubljenih strani. Pajek bo začel s priljubljeno spletno stranjo, ki bo indeksirala besede na svojih straneh in sledil vsaki povezavi, ki jo najdete na spletnem mestu. Na ta način spidering sistem hitro začne potovati in se razprostira po najbolj razširjenih delih spleta.

Google je svojo pot začel kot akademski iskalnik. Zgradili so svoj začetni sistem za uporabo več pajkov, običajno trije hkrati. Vsak pajek naj bi lahko hranil približno 300 hkrati odprtih povezav do spletnih strani. Na svojem vrhuncu, ko so začeli uporabljati štiri pajke, je njihov sistem (spletni brskalnik) lahko preplavil preko 100 strani na sekundo, kar je ustvarilo okoli 600 kilobajtov podatkov na sekundo.

Ohranjanje vsega je pomenilo izgradnjo sistema za vnos potrebnih informacij za pajke. Zgodnji Google sistem je imel strežnik, namenjen zagotavljanju URL-jev pajkom. Google je namesto, da bi bil odvisen od ponudnika internetnih storitev za strežnik imen domen (DNS), ki prevede ime strežnika v naslov, imel svoj DNS, da bi zamude ohranil na minimumu.

Ko je Google pajek pogledal stran HTML, je opazil dve stvari:

  1. Besede na strani

  2. Kje so bile najdene besede

Besede, ki se pojavljajo v naslovu, podnaslovih, meta oznakah in drugih relativnih pozicijah, so bile deležne posebne pozornosti za nadaljnje iskanje uporabnikov. Google pajek je bil zgrajen za indeksiranje vsake pomembne besede na strani. Drugi pajki imajo različne pristope.

Ti različni pristopi običajno poskušajo pajku omogočiti hitrejše delovanje, uporabnikom pa učinkovitejše iskanje. Na primer, nekateri pajki bodo sledili besedam v naslovu, podnaslovi in ​​povezavah, skupaj s 100 najpogosteje uporabljenimi besedami na strani in vsako besedo v prvih 20 vrsticah besedila. Lycos naj bi uporabil ta pristop za pajkanje spleta.

Kako preprečiti in trajno odpraviti kapilarno vlago v vašem domu?
Se je tudi pri vas pojavila kapilarna vlaga? Ste opazili, da se na stenah vašega doma pojavljajo vlažni madeži, odstopanje ometa ali celo plesen? Se vam zdi, da so prostori vedno nekoliko hladne

Drugi sistemi, kot je AltaVista, gredo v drugo smer, indeksirajo vsako besedo na strani, vključno z »nepomembnimi« besedami. Potrebe po popolnosti tega pristopa se ujemajo z drugimi sistemi v pozornost, ki se posveča nevidnemu delu spletne strani, meta oznakam.

Meta oznake

Meta-oznake omogočajo lastniku strani, da določi ključne besede in pojme, pod katerimi bo indeksirana stran. To je lahko koristno, zlasti v primerih, ko imajo besede na strani lahko dvojne ali trojne pomene – meta oznake lahko vodijo iskalnik pri izbiri, kateri od več možnih pomenov za te besede je pravilen. Obstaja pa nevarnost prevelikega zanašanja na meta oznake, ker lahko nepazljiv lastnik strani doda meta oznake, ki ustrezajo zelo priljubljenim temam, vendar nimajo ničesar z dejansko vsebino strani. Da bi se zaščitili pred tem, bodo pajki povezali meta oznake z vsebino strani in zavrnili meta oznake, ki se ne ujemajo z besedami na strani.

Vse to predpostavlja, da lastnik strani dejansko želi, da se vključi v rezultate dejavnosti iskalnika. Velikokrat lastnik strani ne želi, da se prikaže na večjem iskalniku, ali pa ne želi, da bi pajki dostopali do strani. Da bi to podprli, je bil razvit protokol za izključitev robota. Ta protokol, ki se izvaja v meta-tag oddelku na začetku spletne strani, pove pajku, da zapusti stran sam, da ne indeksira besed na strani niti ne poskuša slediti njenim povezavam.

Izdelava indeksa

Ko pajki dokončajo nalogo iskanja informacij na spletnih straneh (in moramo vedeti, da je to naloga, ki nikoli dejansko ni dokončana – nenehno spreminjajoča se narava spleta pomeni, da se pajki vedno »plazijo«), mora spletni brskalnik shraniti informacije na način, ki je uporaben. Obstajata dve ključni komponenti, ki omogočata dostop do zbranih podatkov uporabnikom:

  1. Informacije, shranjene s podatki

  2. Metoda, s katero se informacije indeksirajo

V najpreprostejšem primeru lahko spletni brskalnik shrani samo besedo in URL, kjer so bile informacije najdene. V resnici bi to pomenilo motor z omejeno uporabo, saj ne bi bilo mogoče povedati, ali je bila beseda uporabljena na pomemben ali nepomemben način na strani, ali je bila beseda uporabljena enkrat ali večkrat ali pa je bila stran vsebujejo povezave do drugih strani, ki vsebujejo to isto besedo. Z drugimi besedami, ne bi bilo mogoče oblikovati seznama, ki bi skušal predstaviti najbolj uporabne strani na vrhu seznama rezultatov iskanja.

Spletni brskalnik

Za bolj uporabne rezultate večina spletnih brskalnikov shranjuje več kot le besedo in URL. Motor lahko shrani število prikazov besede na strani. Motor lahko dodeli težo vsakemu vnosu, s povečanjem vrednosti, ki so dodeljene besedam, kot se pojavijo pri vrhu dokumenta, v podnaslovih, v povezavah, v meta oznakah ali v naslovu strani. Vsak komercialni spletni brskalnik ima drugačno formulo za določanje teže besedam v indeksu. To je eden od razlogov, da bo iskanje iste besede na različnih spletnih brskalnikih prineslo različne sezname oziroma rezultate.

Ne glede na natančno kombinacijo dodatnih informacij, ki jih shrani spletni brskalnik, bodo podatki kodirani, da se prihrani prostor za shranjevanje. Na primer, izvirni Googlov dokument opisuje uporabo 2 bajtov z vsakim 8 bitov za shranjevanje informacij o teži – ali je bila beseda napisana z velikimi črkami, njena velikost pisave, položaj in druge informacije, ki pomagajo pri razvrščanju zadetka. Vsak faktor lahko sprejme 2 ali 3 bitov v 2-bajtni skupini (8 bitov = 1 bajt). Posledično lahko veliko informacij shranimo v zelo kompaktni obliki. Ko so informacije zbite, je pripravljen za indeksiranje.

Indeks ima en sam namen:

omogoča, da se informacije najdejo čim hitreje. Obstaja kar nekaj načinov za izdelavo indeksa, vendar je eden od najučinkovitejših načinov izgradnja razpredelnice. V razpršitvi se uporabi formula za pripis številske vrednosti vsaki besedi. Formula je zasnovana tako, da enakomerno porazdeli vnose po vnaprej določenem številu delitev. Ta numerična porazdelitev se razlikuje od porazdelitve besed po abecedi in to je ključ do učinkovitosti razpršene tabele.

Spletni brskalnik prihodnjosti

Iskanja, ki jih določajo logični operaterji, so dobesedna iskanja – motor išče besede ali besedne zveze točno tako, kot so vnesene. To je lahko problem, ko imajo vnesene besede več pomenov. Če vas zanima samo eden od teh pomenov, morda ne boste želeli videti strani z vsemi ostalimi pomeni. Lahko gradite dobesedno iskanje, ki poskuša odpraviti nezaželene pomene, vendar je lepo, če lahko iskalnik sam pomaga.

Eno od področij raziskav iskalnikov je iskanje po konceptu. Nekatere od teh raziskav vključujejo uporabo statistične analize na straneh, ki vsebujejo besede ali besedne zveze, ki jih iščete, da bi našli druge strani, ki bi vas utegnile zanimati. Očitno je, da so informacije, shranjene na vsaki strani, večje za iskalni sistem, ki temelji na konceptu, in za vsako iskanje je potrebna veliko več obdelave. Številne skupine si prizadevajo za izboljšanje rezultatov in uspešnosti te vrste spletnih brskalnikov. Drugi so prešli na drugo področje raziskav, ki se imenuje poizvedbe v naravnem jeziku.

Zamisel za naravne jezikovne poizvedbe je, da lahko vpišete vprašanje na enak način, kot bi ga zastavili človeku, ki sedi poleg vas – ni potrebe po sledenju logičnim operaterjem ali kompleksnim strukturam poizvedb. Najbolj priljubljena spletna stran za poizvedbo naravnega jezika je danes AskJeeves.com, ki razčleni poizvedbo za ključne besede, ki jo nato uporabi za indeks mest, ki jih je zgradila. Deluje samo s preprostimi poizvedbami; vendar je težka konkurenca za razvoj mehanizma za poizvedbe v naravnem jeziku, ki lahko sprejme zahtevo velike kompleksnosti.

Avtor: Marko Vidrih

745
450 SEK