Motore di ricerca

Nell'ambito delle tecnologie di Internet, un motore di ricerca (in inglese search engine) è un sistema automatico che analizza un insieme di dati (spesso da esso stesso raccolti) e restituisce un indice dei contenuti disponibili[1] classificandoli in modo automatico in base a formule statistico-matematiche che ne indichino il grado di rilevanza data una determinata chiave di ricerca. Uno dei campi in cui i motori di ricerca trovano maggiore utilizzo è quello dell'information retrieval e nel web. I motori di ricerca più utilizzati nel 2017 sono stati: Google, Bing, Baidu, Qwant, Yandex, Ecosia, DuckDuckGo.[2][3]

Descrizione[modifica | modifica wikitesto]

Logo Google, il motore di ricerca più utilizzato al mondo

Concettualmente un motore di ricerca è un sistema molto simile ad un'applicazione web ovvero un sistema client-server, attraverso la rete Internet, dove il client è rappresentato dal web browser dell'utente che su richiesta dello stesso si connette ad un server il quale a sua volta esegue una query di ricerca, tramite opportuni algoritmi di ricerca, su dei database (database distribuiti). Nell'analisi dei risultati forniti in uscita un componente essenziale è il cosiddetto crawler o spider. Un buon motore di ricerca è quello che riesce a trovare il maggior numero di contenuti in linea con la tipologia di richiesta ordinandoli per importanza e rilevanza secondo la specifica di ricerca[4].

Fasi operative[modifica | modifica wikitesto]

Il lavoro dei motori di ricerca si divide principalmente in tre fasi[5]:

  • analisi del campo d'azione (tramite l'uso di crawler appositi);
  • catalogazione del materiale ottenuto;
  • risposta alle richieste dell'utente.

Catalogazione[modifica | modifica wikitesto]

Dopo l'analisi delle pagine, a seconda di criteri che variano da motore a motore, alcune di esse vengono inserite nel database e nell'indice del motore di ricerca.

La parte testuale archiviata durante la fase di analisi verrà in seguito analizzata per fornire le risposte alle ricerche degli utenti. Molti motori di ricerca sul web rendono anche disponibile una copia dei dati testuali di ogni pagina archiviata per quando la risorsa originale sia irraggiungibile: questa funzione è detta copia cache[6][7][8].

Risposta[modifica | modifica wikitesto]

Rispondere alle richieste degli utenti implica la necessità di elencare i siti in ordine di rilevanza rispetto alla richiesta ricevuta.

Per stabilire la rilevanza di un sito vengono cercati nel database quei documenti che contengono la parola chiave[9] inserita dall'utente, dopodiché ogni motore di ricerca sfrutta propri algoritmi per classificare le pagine, controllando, per esempio, quante volte le parole chiave vengono ripetute, quanti link riceve quel documento, in quali punti della pagina sono poste le parole chiave, quanti siti del database contengono link verso quella pagina, o quante volte un utente ha visitato quel sito dopo una ricerca[10].

Raffinamento della ricerca[modifica | modifica wikitesto]

La possibilità di raffinare la ricerca varia da motore a motore, ma la maggior parte permette di utilizzare operatori booleani: ad esempio è possibile cercare "Ganimede AND satellite NOT coppiere" per cercare informazioni su Ganimede inteso come pianeta e non come figura mitologica.

Su Google e sui motori più moderni è possibile raffinare la ricerca a seconda della lingua del documento, delle parole o frasi presenti o assenti, del formato dei file (Microsoft Word, PDF, PostScript, ecc.), a seconda della data di ultimo aggiornamento, e altro ancora. È anche possibile cercare contenuti presenti in un determinato sito, ad esempio "Ganimede site:nasa.gov" cercherà le informazioni su Ganimede presenti sul sito della NASA.

Su Exalead si trova una parte speciale per raffinare la ricerca più intuitivamente.

Indicizzazione[modifica | modifica wikitesto]

Lo stesso argomento in dettaglio: Indicizzazione (motori di ricerca).

Per indicizzazione si intende l'inserimento di un sito web nel database di un motore di ricerca. L'indicizzazione di un sito internet, in altre parole, è il modo in cui il sito viene acquisito e interpretato dai motori di ricerca e quindi compare nelle loro pagine di risposta alle interrogazioni degli utenti web.

Per indicizzarsi, un sito deve essere scansionato da un crawler. Ciò può avvenire naturalmente grazie alle scansioni di routine effettuate dai motori di ricerca, oppure tramite esplicita richiesta. Per Google, è possibile richiedere una scansione tramite la Search Console collegata al sito in questione.

Posizionamento[modifica | modifica wikitesto]

Lo stesso argomento in dettaglio: Posizionamento (motori di ricerca).

Con il termine posizionamento s'intende l'acquisizione di visibilità tra i risultati dei motori di ricerca. Più specificamente, è l'operazione attraverso la quale il sito viene ottimizzato per comparire nei risultati in una posizione il più possibile favorevole e rilevante[11].

Ottimizzazione[modifica | modifica wikitesto]

Lo stesso argomento in dettaglio: Ottimizzazione (motori di ricerca).

Con il termine ottimizzazione per i motori di ricerca si intendono, nel linguaggio di internet, tutte quelle attività volte a migliorare la visibilità di un sito web sui motori di ricerca (quali ad es. Google, Yahoo!, ecc.) al fine di migliorare (o mantenere) il posizionamento nelle pagine di risposta alle interrogazioni degli utenti del web. A sua volta, il buon posizionamento di un sito web nelle pagine di risposta dei motori di ricerca è funzionale alla visibilità dei prodotti/servizi venduti[12].

Risultati sponsorizzati[modifica | modifica wikitesto]

I motori di ricerca forniscono anche risultati sponsorizzati, ovvero mostrano in maggiore evidenza nelle SERP (Search Engine Result Pages, Pagine dei risultati dei motori di ricerca) siti web di aziende che pagano per risultare tra i primi risultati quando si cercano termini (detti parole chiave) che sono in relazione all'ambito di competenza dell'azienda stessa[13]. I risultati sponsorizzati dei motori possono apparire anche sui siti che partecipano al loro programma di affiliazione. In particolar modo, Google permette di far apparire nelle proprie pagine dei risultati (chiaramente distinti dai risultati "naturali") risultati a pagamento comprati con il programma AdWords. In aggiunta a questo offre anche un servizio di sponsorizzazione che si rivolge a tutti i siti che hanno determinati requisiti, chiamato AdSense. Google AdSense (spesso abbreviato con Google AS) usa le capacità del motore di ricerca di interpretare il tema della pagina in cui è posizionato l'apposito codice per fornire annunci a tema[14]. Yahoo! Search ha annunciato l'arrivo di un programma analogo chiamato Panama[15].

Motori di ricerca più diffusi[modifica | modifica wikitesto]

Logo Yahoo
Logo Bing
Logo Baidu
Logo Ask.com
Logo Ecosia

I motori di ricerca con maggiore rilevanza internazionale nel 2020 sono[16][17]:

  • Google, oltre ad essere di gran lunga il più usato direttamente, è anche quello con il maggior numero di siti che ne utilizzano il database, anche a causa del programma di sponsorizzazione "AdSense per la ricerca" che appartiene al più vasto programma AdSense.
  • Microsoft Bing, motore creato dalla Microsoft ed usato da Microsoft Network, meglio noto come MSN.
  • Baidu, motore di ricerca cinese che raccoglie un bacino di utenza tanto vasto quanto in crescita, dato il totale strapotere sugli altri motori di ricerca usati in Cina.
  • Yandex, motore con il maggior market share in Russia.

Questi 4 motori di ricerca sono dotati di tecnologia proprietaria.

Altre menzioni importanti sono:

  • Qwant, motore di ricerca europeo che mira ad offrire all'utente una maggiore privacy.
  • DuckDuckGo, motore di ricerca rispettoso della privacy.
  • Ecosia, motore di ricerca ecologico tedesco, produce meno anidride carbonica dei server concorrenti; l'80% dei proventi viene utilizzato per piantare alberi in giro per il mondo e diminuire il disboscamento, ed è stato fondato in collaborazione con il WWF.
  • Startpage, uno dei pochi motori di ricerca al mondo a garantire la privacy, poiché non conserva né registra gli IP di chi effettua ricerche.
  • Yahoo!, ormai totalmente basato su tecnologia Bing.
  • Ask.com

Tra questi ultimi gli unici che sono dotati in parte di un indice proprietario sono Qwant e in parte DuckDuckGo

In Italia[modifica | modifica wikitesto]

Logo Qwant
logo Yandex
Logo Virgilio.it
  • Google è utilizzato anche da Libero, Virgilio e Tiscali (cosa immediatamente verificabile da chiunque). In Italia il divario fra l'utilizzo di Google e degli altri è talmente vasto che, pur essendo i dati ovviamente variabili, la percentuale delle ricerche effettuate su Google è pari ad un multiplo della somma di tutti gli altri motori di ricerca messi assieme.
  • Istella Italia[18] è un motore di ricerca sviluppato da Tiscali ma, anche se raggiungibile, non risulta aggiornato dal 2016.

Lista[modifica | modifica wikitesto]

Anno Motore Evento Motore Stato attuale
1993 Bandiera della Svizzera W3Catalog Lancio Inattivo
Bandiera della Svizzera Aliweb Lancio Inattivo
Bandiera della Scozia JumpStation Lancio Inattivo
Bandiera degli Stati Uniti WWW Worm Lancio Inattivo
1994 Bandiera degli Stati Uniti WebCrawler Lancio Bing Attivo
Bandiera degli Stati Uniti Go.com Lancio Inattivo
Bandiera degli Stati Uniti Infoseek Lancio Inattivo
Bandiera degli Stati Uniti Lycos Lancio Bing Attivo
Bandiera dell'Italia Spenki Fondazione Inattivo
1995 Bandiera degli Stati Uniti AltaVista Lancio Inattivo, reindirizzato a Yahoo!
Bandiera della Corea del Sud Daum Lancio Attivo
Bandiera degli Stati Uniti Magellan Lancio Inattivo
Bandiera degli Stati Uniti Excite Lancio Inattivo, solo notizie
Bandiera del Portogallo SAPO Lancio Inattivo, solo notizie
Bandiera degli Stati Uniti Yahoo! Lancio Inattivo (diventato Yahoo! Search)
1996 Bandiera degli Stati Uniti Dogpile Lancio Aggregatore Attivo
Bandiera degli Stati Uniti Inktomi Fondazione Inattivo, acquisito da Yahoo!
Bandiera degli Stati Uniti HotBot Fondazione Attivo
Bandiera dell'Italia Arianna Fondazione Inattivo, inglobato in Libero
Bandiera dell'Italia Multisoft Fondazione Inattivo
Bandiera dell'Italia Virgilio Fondazione Attivo, risultati Google
Bandiera degli Stati Uniti Ask Jeeves Fondazione Inattivo (rimarchiato in ask.com)
1997 Bandiera degli Stati Uniti Northern Light Lancio Inattivo
Bandiera della Russia Yandex Lancio Proprietario Attivo
1998 Bandiera degli Stati Uniti Google Lancio Proprietario Attivo
Bandiera dell'EuropaBandiera dei Paesi Bassi Ixquick Lancio Aggregatore Attivo anche come Startpage
Bandiera degli Stati Uniti MSN Search Lancio Inattivo, diventato Bing
Bandiera della Corea del Sud empas Lancio Inattivo (fusa con NATE)
1999 Bandiera della Norvegia Alltheweb Lancio Inattivo (URL reindirizzato a Yahoo!)
Bandiera del Canada GenieKnows Lancio Inattivo
Bandiera della Corea del Sud Naver Lancio Attivo
Bandiera degli Stati Uniti Teoma Fondazione Ask Attivo
Bandiera degli Stati Uniti Vivísimo Fondazione Inattivo, IMB
Bandiera dell'Italia superEva Lancio Inattivo, solo analisi trend
2000 Bandiera della Cina Baidu Fondazione Proprietario Attivo
Bandiera della Francia Exalead Lancio Proprietario Attivo
Bandiera degli Stati Uniti Gigablast Lancio Proprietario Attivo
2001 Bandiera della Francia Kartoo Lancio Inattivo
2003 Bandiera dell'Inghilterra Info.com Lancio Bing Attivo
Scroogle Lancio Inattivo
2004 Bandiera degli Stati Uniti Yahoo! Search Lancio finale Bing Attivo
Bandiera degli Stati Uniti A9.com Lancio Inattivo
Bandiera della Cina Sogou Lancio Attivo
2005 Bandiera degli Stati Uniti Windows Live Search Lancio finale Inattivo
Bandiera degli Stati Uniti GoodSearch Lancio Inattivo
Bandiera degli Stati Uniti SearchMe Lancio Inattivo
2006 Bandiera della Cina Soso Lancio Attivo
Bandiera della FranciaBandiera dell'Unione europea Quaero Fondazione Inattivo
Bandiera degli Stati Uniti Search.com Fondazione Proprietario Attivo (Cerca solo su CBS)
Bandiera degli Stati Uniti Ask.com Lancio Attivo
Bandiera degli Stati Uniti Windows Live Search Lancio Inattivo
Bandiera degli Stati Uniti ChaCha Lancio beta Inattivo
Bandiera dell'India Guruji.com Lancio beta Inattivo
2007 Bandiera degli Stati Uniti Wikiseek Lancio Inattivo
Bandiera degli Stati Uniti Sproose Lancio Inattivo
Bandiera degli Stati Uniti Wikia Search Lancio Inattivo
2008 Bandiera degli Stati Uniti Cuil Lancio Inattivo
Bandiera degli Stati Uniti Powerset Lancio Inattivo
Bandiera della Russia Picollator Lancio Inattivo
Bandiera degli Stati Uniti Viewzi Lancio Inattivo
Bandiera dell'Inghilterra Boogami Lancio Inattivo
Bandiera degli Stati Uniti LeapFish Lancio Inattivo
Bandiera della Germania Forestle Lancio Inattivo
Bandiera dell'Australia Ecocho Lancio Inattivo
Bandiera degli Stati Uniti DuckDuckGo Lancio Bing + Algoritmi proprietari Attivo
2009 Bandiera dell'Inghilterra Wolfram Alpha Lancio Proprietario Attivo
Bandiera degli Stati Uniti Bing Lancio Proprietario Attivo
Bandiera degli Stati Uniti Yebol Lancio Inattivo
Bandiera degli Stati Uniti Mugurdy Lancio Inattivo
Bandiera degli Stati Uniti Scout (Goby) Lancio Inattivo
Bandiera degli Stati Uniti Coozila! Lancio Attivo
Bandiera della Germania Ecosia Lancio Bing + Algoritmi proprietari Attivo
Bandiera della Corea del Sud NATE Lancio Attivo
2010 Bandiera degli Stati Uniti iAlgae Lancio Attivo
Bandiera degli Stati Uniti Blekko Lancio Inattivo (venduto a IBM)
Bandiera degli Stati Uniti Cuil Lancio Inattivo
Bandiera della Russia Yandex (Versione

in Inglese)

Lancio Attivo
2011 Bandiera degli Stati Uniti YaCy Lancio Inattivo (Software self-hosted)
2012 Bandiera dell'Italia Volunia Lancio Inattivo
Bandiera dell'Italia Ideao Lancio Inattivo
2013 Bandiera dell'Italia Istella Lancio Proprietario Raggiungibile, inattivo
Bandiera dell'EuropaBandiera della Francia Qwant Lancio Bing + Algoritmi proprietari Attivo
Bandiera degli Stati Uniti Aoohe Lancio Inattivo
Bandiera del Vietnam Coc Coc Lancio Attivo
Egerin Lancio Attivo, motore di ricerca in curdo / Sorani
2014 Searx Lancio Aggregatore Attivo
Bandiera della Svizzera Swisscows Lancio Bing Attivo
2015 Bandiera dell'EuropaBandiera della Germania Cliqz Lancio Proprietario Inattivo
2017 Bandiera della Francia Xaphir Beta Proprietario Inattivo, acquisito da Qwant[19]

La maggior parte dei motori di ricerca che opera sul web è gestito da compagnie private che utilizzano algoritmi proprietari e banche dati tenuti segreti. Esistono comunque diversi tentativi di dar vita a motori di ricerca fondati sul software libero, alcuni esempi sono:

Altri motori di ricerca attivi al marzo 2020, sono: Metager (per la privacy), Serch Encrypt, SearX,Gibiru, YaCy (decentralizzato), Yippi, Lukol e Boardreader.

Prospettive di sviluppo[modifica | modifica wikitesto]

Le più recenti innovazioni nella produzione di algoritmi e di sistemi di Information Retrieval si basano sull'analisi semantica dei termini e sulla conseguente creazione di reti semantiche. La stessa Google ha adottato sistemi per la prevenzione dell'errore e la contestualizzazione dei risultati[20][21].

È lecito prevedere che nel giro di alcuni anni i motori di ricerca baseranno le proprie tecnologie sia sull'analisi quantitativa dei contenuti (le parole in sé), sia soprattutto su quella qualitativa (il senso delle parole). I motori di ricerca saranno, ad esempio, in grado di distinguere il senso della parola "pesca" a seconda di quale sia il contesto in cui la parola è contenuta (capire se sia il frutto, la disciplina sportiva, o altro). Per muoversi in questa direzione Google ha acquisito Oingo (un tempo noto come "il motore dei concetti") e la tecnologia dell'azienda che lo creò, la Applied Semantics[22].

Il web 2.0 e il futuro dei motori di ricerca[modifica | modifica wikitesto]

Lo stesso argomento in dettaglio: Web 2.0.

La nuova frontiera dei motori di ricerca è il web 2.0. Adottando questa logica molti motori e directory internazionali puntano a una maggiore partecipazione degli utenti nella creazione dei contenuti dei motori di ricerca, in modo da eliminare qualsiasi ricorso a spider o a link sponsorizzati. Con questa logica gli utenti possono segnalare essi stessi i link e decidono se dare o meno popolarità ai siti segnalati.

Il web 2.0 punta anche a una facilità di utilizzo più rapida, veloce ed intuitiva grazie all'utilizzo di Metamotori (o motori di ricerca multipli) come[23][24]:

Aggiunta di un motore di ricerca[modifica | modifica wikitesto]

I comuni browser contengono una lista predefinita di motori di ricerca (i maggiori) nell'impostazione relativa al motore di ricerca preferito (principale). Qualora un certo motore di ricerca non sia presente è sufficiente eseguire la seguente procedura:

  • aprire il motore di ricerca voluto, eseguire una qualsiasi ricerca (ad esempio "ciao");
  • copiare l'URL restituita e sostuire la parola cercata ("ciao") con la stringa "%s" (senza le virgolette) (la query diventa "www.esempio.com/search?q=%s");
  • incollare la query nel campo delle impostazioni del browser per l'aggiunta manuale di motori di ricerca e dare il comando di inserimento;
  • se lo si vuole, rendere predefinito il motore di ricerca appena inserito.

Motori di ricerca semiautomatici[modifica | modifica wikitesto]

Contrariamente ad alcune aspettative dei primi anni Duemila, i motori di ricerca hanno reso più importante l'attività umana di ricerca e selezione delle fonti più autorevoli.

Le biblioteche svolgono un'attività di supporto e consulenza in tal senso. Esistono progetti aperti e gratuiti, come Eurekoi, nei quali un utente può porre a una rete di bibliotecari esperti un quesito circa una risorsa per un argomento specifico.[26]

Note[modifica | modifica wikitesto]

  1. ^ Alta Vista, p. 6.
  2. ^ (EN) What is Search Engine? - Definition from Techopedia, su Techopedia.com. URL consultato il 26 ottobre 2021.
  3. ^ (EN) What is a Search Engine?, su computerhope.com. URL consultato il 26 ottobre 2021.
  4. ^ (EN) What is a Search-Engine Database?, su Redis. URL consultato il 26 ottobre 2021.
  5. ^ Come funziona un motore di ricerca? Alcune tendenze per il futuro., su Alkimedia, 2 febbraio 2017. URL consultato il 26 ottobre 2021.
  6. ^ (EN) Search Engines & Databases | DataCenter, su datacenter.org. URL consultato il 26 ottobre 2021.
  7. ^ (EN) Jonathan Gray, Liliana Bounegru e Lucy Chambers, The Data Journalism Handbook, "O'Reilly Media, Inc.", 2012, ISBN 978-1-4493-3006-4. URL consultato il 26 ottobre 2021.
  8. ^ Specifiche relative ai meta tag robots | Google Search Central, su Google Developers. URL consultato il 26 ottobre 2021.
  9. ^ SEO Keywords: How to Find Keywords for Your Website | WordStream, su wordstream.com. URL consultato il 26 ottobre 2021.
  10. ^ (EN) Answer Searching & Answer Search Engines, su Search Engine Watch, 14 settembre 2005. URL consultato il 26 ottobre 2021.
  11. ^ SEO: cos'è e quali sono le tecniche di ottimizzazione più efficaci | Italiaonline, su Blog Italiaonline. URL consultato il 26 ottobre 2021.
  12. ^ (EN) What Is SEO / Search Engine Optimization?, su Search Engine Land. URL consultato il 26 ottobre 2021.
  13. ^ Cos'è una SERP? Definizione, significato, esempi - Studio Samo, su studiosamo.it. URL consultato il 26 ottobre 2021.
  14. ^ (EN) What Is Google AdSense and How To Make Money With It, su Semrush Blog. URL consultato il 26 ottobre 2021.
  15. ^ (EN) Welcome to the Panama Jungle: A user’s guide to Yahoo!’s new interface, su ppchero.com. URL consultato il 26 ottobre 2021.
  16. ^ Top 12 Best Search Engines in The World, su inspire.scot. URL consultato il 26 ottobre 2021.
  17. ^ (EN) Top 10 Search Engines In The World (2021 Update), su reliablesoft.net, 15 dicembre 2016. URL consultato il 26 ottobre 2021.
  18. ^ Istella, l'anti-Google italiano punta sul social, su CorCom, 19 marzo 2013. URL consultato il 26 ottobre 2021.
  19. ^ (FR) Qwant reprend Xilopix, créateur du moteur Xaphir - Le Monde Informatique, in LeMondeInformatique. URL consultato il 15 gennaio 2018.
  20. ^ faculty.ist.psu.edu (PDF).
  21. ^ Information Retrieval: cos'è, modelli, come si applica alla SEO, su Digital-coach.it. URL consultato il 26 ottobre 2021.
  22. ^ (EN) Today in History: Google Buys Applied Semantics, su Digiday, 23 aprile 2013. URL consultato il 26 ottobre 2021.
  23. ^ Google Libri, su books.google.com. URL consultato il 26 ottobre 2021.
  24. ^ researchgate.net.
  25. ^ Vincitore tinooo.com un motore di ricerca - Vincitore tinooo.com un motore di ricerca che in pochi click può essere personalizzato per trovare qualsiasi cosa sul web.
  26. ^ Il “motore di ricerca umano” composto da 600 bibliotecari francesi, su ilpost.it.

Bibliografia[modifica | modifica wikitesto]

  • Guida alle Tecniche di Ricerca su Internet, Milano, Loeacher, 2000.

Voci correlate[modifica | modifica wikitesto]

Altri progetti[modifica | modifica wikitesto]

Collegamenti esterni[modifica | modifica wikitesto]

Controllo di autoritàThesaurus BNCF 37517 · LCCN (ENsh00001050 · GND (DE4423007-2 · BNF (FRcb13558463d (data) · J9U (ENHE987007291618305171 · NDL (ENJA00964483
  Portale Internet: accedi alle voci di Wikipedia che trattano di internet