Informații surprinzătoare despre cum funcționează motorul de căutare Google, dintr-un document intern devenit public din greșeală

29 Mai 2024
Informații surprinzătoare despre cum funcționează motorul de căutare Google, dintr-un document intern devenit public din greșeală

Iscoditorii în tainele internetului au fost realmente surprinși  plăcut de lejeritatea cu care un document intern al Google a devenit public, după ce  API-ul Content Warehouse al Google Search a fost publicat accidental pe un depozit de cod pentru biblioteca client pe platforma de cloud a gigantului high-tech.

Scurgerea de informații interne a fost remediată de Google în aceeași zi, 7 mai 2024, dar a fost suficient de mult timp vizibil, publicat sub licența Apache 2.0, iar oricine a dat peste el a primit un set larg de drepturi, inclusiv abilitatea de a-l folosi, modifica și distribui în orice fel.

Nu se poate vorbi că prin această dezvăluire s-a făcut o devoalare totală a criteriilor de ierarhizare a căutărilor făcute prin intermediul Google, dar documentul oferă o bogăție de informații despre datele stocate pentru conținut, linkuri și interacțiuni ale utilizatorilor. 

Nu există detalii despre funcțiile de ierarhizare ale Google în documentația revizuită, dar sunt evidențiate diverse grade de descrieri ale conținutului - de la dezamăgitor de sumare până la surprinzător de revelatoare -, ale caracteristicilor manipulate și stocate de motorul de căutare.

Metadatele stocate de Google ar putea fi numite în  mod general ”factori de clasare”, dar asta ar fi imprecis. Mulți, chiar majoritatea, dintre ei sunt factori de clasare, dar mulți nu sunt. 

În documentația API-ulului Content Warehouse al Google Search există 2.596 module cu 14.014 atribute, caracteristici. Modulele fac referite la componente ale YouTube, Assistant, Books, căutare video, linkuri, documente web, infrastructură de crawl, un sistem intern de calendar și People API.

Ce este surprinzător este faptul că unele dintre ele nu au fost recunoscute în mod oficial de Google ca fiind criterii pe care le aplică sortării și catalogării rezultatelor, cum ar fi criteriul de autoritate al unui domeniu, importanța numărului de click-uri, durata vizitei, utilizarea Chrome pentru achiziția de date sau faptul că numărul de caractere ale unui articol nu este stocat și, prin urmare, nu este un criteriu de ierarhizare, de exemplu.

La fel ca și în cazul Yandex, sistemele Google operează pe un depozit monolitic (sau ”monorepo”) și mașinile funcționează într-un mediu partajat. Acest lucru înseamnă că tot codul este stocat într-un singur loc și orice mașină din rețea poate face parte din oricare dintre sistemele Google.

Documentul conturează fiecare modul al API-ului și le descompune în rezumate, tipuri, funcții și atribute. Majoritatea lor sunt definițiile proprietăților pentru diverse protocoale de tip buffer (sau protobufs) care sunt accesate în sistemele de clasificare pentru a genera SERP-uri (Search Engine Result Pages - ceea ce arată Google utilizatorilor după ce efectuează o căutare).

Din păcate, multe dintre rezumate fac referire la linkuri Go, care sunt URL-uri care trimit către pe intranetul corporativ al Google, oferind detalii suplimentare despre diferite aspecte ale sistemului. 

Deși, conceptual, s-ar putea să percepem ”algoritmul Google” ca la un singur element, o ecuație gigantă cu o serie de factori de clasificare ponderați, în realitate, este vorba de o serie de microservicii în care multe caracteristici sunt preprocesate și făcute disponibile în timpul execuției pentru a compune SERP-ul.

Pe baza diferitelor sisteme menționate în documentație, ar putea exista peste o sută de sisteme de clasificare diferite. Presupunând că acestea nu sunt toate sistemele, poate că fiecare dintre sistemele separate reprezintă un ”semnal de clasificare” și poate că așa ajunge Google la cele 200 de semnale de clasificare despre care s-a vorbit adesea.

Funcționalitatea motorului de căutare Google se bazează pe acțiunea a cinci module majore: NavBoost, QualityBoost, RealTimeBoost, WebImageBoost, ale căror rezultate sunt ulterior rafinate de alte funcții care se bazează la rândul lor pe machine learning.

Importanța AI-ului în sortarea rezultatelor a devenit covârșitoare, funcția de machine learning permițând sistemului să treacă de la căutările separate pentru mai multe cuvinte cheie la identificarea extrem de precisă a ceea ce caută de fapt utilizatorul, și pe baza istoricului său. 

De exemplu, într-o confruntare ad-hoc între inginerii Google care lucrează în departamentul de filtrare a rezultatelor de căutare și AI, mașina a învins, având succes în 93% dintre încercări, în timp ce tehnicienii care i-au pus bazele au obținut un scor de doar 62%.

În afară de datele tehnice ce vor fi consumate de agențiile de SEO, într-un termen larg, extins, putem afirma că documentul intern al Google ne oferă o imagine despre cât de complex este mecanismul care stă în spatele celei mai banale căutări pe care o facem pe internet, cât de multă informație despre comportamentul nostru oferim ca metadate platformelor pe care le folosim zilnic și cât de facil și de bine direcționat poate fi un proces de manipulare a maselor în timpurile moderne.

 

Alte stiri din It

Ultima oră