Video: 404 fouten weergeven in Google Analytics (December 2024)
Om mijn nieuws te krijgen, scan ik vaak Google Nieuws, dat artikelen van over de hele wereld verzamelt op basis van wat de "robot" heeft bepaald dat deze trending is. Het draait allemaal om wat trending is. Het mist over het algemeen het laatste nieuws en negeert volledig belangrijk commentaar, zoals mijn column. In plaats daarvan lijkt het de voorkeur te geven aan dode links - waarmee ik bedoel de Wall Street Journal , die een abonnement vereist om te lezen.
Vandaag is een goed voorbeeld. Er was een breaking news-verhaal van CES over het Dish Network dat een bieding deed om Clearwire te kopen. Maar in plaats van te linken naar een van de gerelateerde verhalen door gratis en leesbare websites, besluit Google dat het beste verhaal uit de Wall Street Journal moet komen.
In het verleden had Google een deal waarmee gebruikers op zijn minst de hoofdparagraaf konden lezen, of zelfs het hele artikel, voordat ze werden geblokkeerd door de betaalmuur. Tenzij u een bypass-truc kent (hieronder besproken), is dit niet langer van toepassing. Nu kom je de paywall tegen en ben je klaar. Ik neem aan dat echte abonnees hier voorbij komen, maar ik vraag me af hoe de Google-bots erdoorheen komen om het verhaal überhaupt te vinden. Betaalt Google? Ik betwijfel het. Dus er moet een soort achterdeur zijn voor de Google-bots, toch?
Dit is nep en doet de Google-gebruikers geen dienst. Google doet al deze moeite om mensen te verslaan die proberen het systeem te gamen, maar laat het de Wall Street Journal deze stunt overhalen? Dit is in wezen een betaald abonnement op Wall Street Journal . Is dat wat Google wil? Krijgt Google een korting?
Het kan voor Google niet zo moeilijk zijn om deze ergernis gewoon op te lossen. Het zou een minuut duren - vijf toppen. Is dat teveel werk?
Als een bedrijf een paywall in zijn service heeft ingebouwd, zou Google helemaal niet op de site moeten zoeken. De bots moeten weten dat er een betaalmuur is en moeten de zoekopdracht eenvoudig vermijden. En ja, ik wil graag een uitleg over hoe de bots precies kunnen zoeken op een site die wordt geblokkeerd door een betaalmuur. Het is een mysterie.
Een paywall moet exact hetzelfde zijn als een "robots.txt" die de crawler-bot vertelt weg te gaan. Maar er is iets mis met de WSJ- Google-relatie. De eenvoudigste manier om alle bots te doden is een metatag in het robots.txt-bestand, dus: .
De WSJ blokkeert in plaats daarvan specifiek bepaalde submappen, maar blijkbaar niet alle. En nog vreemder, als je een Google Nieuws-zoekopdracht doet naar exact hetzelfde artikel, in plaats van gewoon op de link in het overzicht te klikken, krijg je het artikel via een ander mechanisme.
Ik daag de technischere lezers uit om erachter te komen wat er aan de hand is met deze twee door het robots.txt-bestand van de WSJ te onderzoeken . Een openbaar document is hier beschikbaar.
Hoe dan ook, sites hebben om financiële redenen paywalls. Als ze games met hun inhoud willen spelen, is dat één ding, maar het moet worden verbannen uit zoekresultaten op dezelfde manier als Google mensen probeert te dwarsbomen die het systeem proberen te gamen. Google verbiedt een ongelukkige blogger in een handomdraai voor wat schetsmatig gedrag. Hoe zit het met het omgaan met grotere sites op dezelfde manier?
Je kunt John C. Dvorak volgen op Twitter @therealdvorak.
Meer John C. Dvorak:
Ga off-topic met John C. Dvorak.
BEKIJK ALLE FOTO'S IN GALERIE