Robots-txt-WordPress-bij-voorbeeld-deze-code-gebruiken

Het Robots.txt bestand in je WordPress website vertelt zoekmachines welke mappen en content zij mogen crawlen / indexeren. Mappen die op ‘allow’ staan, blijven toegankelijk voor zoekmachines, terwijl WordPress mappen die op ‘disallow’ staan niet worden geïndexeerd door Google (of andere zoekmachines).

Bekijk ook onze SEO-diensten Utrecht.

Bekijk het Robots.txt WordPress voorbeeld. NB: Plaats een robot.txt bestand altijd in de (eerste map =) hoogste map van je website (in de root).
In dit bericht een voorbeeld van een Robots.txt bestand voor je WordPress website. De instellingen zijn zodanig dat zoekmachines alleen je openbare content indexeren en niet afgeschermde delen van je website. Voor Nederlands publiek gaat het erom dat de Robots.txt file vooral goed ingesteld moet staan voor Google, omdat bijna iedereen Google Zoeken gebruikt, en veel minder vaak andere zoekmachines zoals Bing, Yahoo, Safari. Wat de goede instellingen zijn voor een Robots.txt bestand, kun je zien in dit WordPress robots.txt voorbeeld van Contentking.

Robots.txt WordPress voorbeeld

(Je kunt dit ook geautomatiseerd aanleggen via een plugin: Better Robots.txt.)

User-agent: *

Disallow: /wp-admin/

Disallow: /wp-login.php

Disallow: /readme.txt

Disallow: /search/

Disallow: *?s=*

Disallow: *&p=*

Disallow: *&preview=*

Disallow: /author/

Disallow: /404-error/

Disallow: /*/json/

Disallow: /json

Sitemap: https://www.voorbeeld.nl/sitemap_index.xml


Ps. de reden dat Json erin staat, kun je hier nalezen, bij Moz.

Blokkeren van crawlers via robot.txt

Het is ook mogelijk om sommige crawlers te weren van je website. Als je dat doet, zijn deze voorbeelden over te nemen. Je kunt dan ideeën uit onderstaande code in de Robots file, zoals hierboven geschetst, toevoegen. Bijv. SemRush en Ahrefs zou je kunnen blokkeren zodat hun crawler niet jouw website kan uitlezen op links die erop staan. Je concurrenten zouden deze dan ook kunnen weten. SpyFu moet erbij nog.

User-agent: *
Disallow:


User-agent: exabot
Disallow: /

User-agent: gigabot
Disallow: /

User-agent: rogerbot
Disallow: /

User-agent: xenu
Disallow: /

User-agent: AhrefsBot
Disallow: /

User-agent: badbot
Disallow: /

User-agent: dotbot
Disallow: /

User-agent: SemrushBot
Disallow: /

User-agent: BLEXBot
Disallow: /

User-agent: MJ12bot
Disallow: /

User-agent: True_Robot
Disallow:/

# you can add as many bots as you'd like.

Ps. Je kunt dit ook geautomatiseerd aanleggen via een plugin: Better Robots.txt.

Traceren van fouten in de wijze waarop Google Bot je website Crawled

Mocht je willen weten, hoe Google Bot of andere crawlers echt met je site omgaan? Dan kun je een diepe analyse uitvoeren van serverfouten. Dit is je error_log in Cpanel. Of andere hostingsoftware waarin errors verzameld worden. Je verzamelt dan alle data van GoogleBot van 1 etmaal. Je kunt dan zelf zien of Google alle pagina’s kan vinden. En welke andere crawlers actief zijn. Hier zijn verschillende bronnen over. Deze video en een aantal links onder de video. Hoe je de data automatisch kunt analyseren, wordt uitgelegd via de link van MOZ.

Links over serverfouten in relatie tot blokkeren van crawlers in Robots.txt

Error_log in CPanel vinden (hostingzijde website)

Locations of Common Log Files on cPanel Servers

Hoe analyseren Error_log export

https://moz.com/blog/server-log-essentials-for-seo

Robots.txt theorie verder uitgediept

Bekijk de website van Contentking voor de achterliggende uitleg bij deze code.

Succes met WordPress!

Gerben G. van Dijk.