bots.yml - OpenGrok cross reference for /plugin/statistics/vendor/matomo/device-detector/regexes/bots.yml

Lines Matching +full:turbo +full:- +full:x
2 # Device Detector - The Universal Device Detection library for parsing User Agents
8 - regex: 'WireReaderBot'
13 - regex: 'monitoring360bot'
21 - regex: 'Cloudflare-Healthchecks'
24   url: 'https://developers.cloudflare.com/health-checks/'
29 - regex: '360Spider'
37 - regex: 'Aboundex'
45 - regex: 'AcoonBot'
53 - regex: 'AddThis\.com'
61 - regex: 'AhrefsBot'
69 - regex: 'AhrefsSiteAudit'
72   url: 'https://ahrefs.com/robot/site-audit'
77 - regex: 'ia_archiver|alexabot|verifybot'
80   url: 'https://support.alexa.com/hc/en-us/sections/200100794-Crawlers'
85 - regex: 'alexa site audit'
88   url: 'https://support.alexa.com/hc/en-us/articles/200450194'
93 - regex: 'Amazonbot'
101 - regex: 'AmazonAdBot'
109 - regex: 'Amazon[ -]Route ?53[ -]Health[ -]Check[ -]Service'
116 - regex: 'AmorankSpider'
124 - regex: 'ApacheBench'
132 - regex: 'Applebot'
135   url: 'https://support.apple.com/en-us/119829'
140 - regex: 'iTMS'
143   url: 'https://support.apple.com/en-us/119829'
148 - regex: 'AppSignalBot'
151   url: 'https://docs.appsignal.com/uptime-monitoring/'
156 - regex: 'Arachni'
159   url: 'https://www.arachni-scanner.com/'
164 - regex: 'AspiegelBot'
172 - regex: 'Castro 2, Episode Duration Lookup'
180 - regex: 'Curious George'
188 - regex: 'archive\.org_bot|special_archiver'
196 - regex: 'Ask Jeeves/Teoma'
204 - regex: 'Backlink-Check\.de'
205   name: 'Backlink-Check.de'
207   url: 'http://www.backlink-check.de/bot.html'
210     url: 'http://www.backlink-check.de'
212 - regex: 'BacklinkCrawler'
220 - regex: 'Baidu.*spider|baidu Transcoder'
228 - regex: 'BazQux'
236 - regex: 'Better Uptime Bot'
244 - regex: 'MSNBot|msrbot|bingbot|bingadsbot|BingPreview|msnbot-(UDiscovery|NewsBlogs)|adidxbot'
252 - regex: 'Blackbox Exporter'
260 - regex: 'Blekkobot'
268 - regex: 'BLEXBot'
271   url: 'http://webmeup-crawler.com'
276 - regex: 'Bloglovin'
284 - regex: 'Blogtrottr'
292 - regex: 'BoardReader Blog Indexer'
299 - regex: 'BountiiBot'
307 - regex: 'Browsershots'
315 - regex: 'BUbiNG'
323 - regex: '(?<!HTC)[ _]Butterfly/'
331 - regex: 'CareerBot'
334   url: 'http://www.career-x.de/bot.html'
336     name: 'career-x GmbH'
337     url: 'http://www.career-x.de'
339 - regex: 'CCBot'
347 - regex: 'Cliqzbot'
355 - regex: 'Cloudflare-AMP'
363 - regex: 'Cloudflare-?Diagnostics'
371 - regex: 'CloudFlare-AlwaysOnline'
374   url: 'https://www.cloudflare.com/always-online'
379 - regex: 'Cloudflare-SSLDetector'
382   url: 'https://developers.cloudflare.com/fundamentals/reference/cloudflare-site-crawling/'
387 - regex: 'Cloudflare Custom Hostname Verification'
390   url: 'https://developers.cloudflare.com/fundamentals/reference/cloudflare-site-crawling/'
395 - regex: 'Cloudflare-Traffic-Manager'
398   url: 'https://developers.cloudflare.com/fundamentals/reference/cloudflare-site-crawling/'
403 - regex: 'Cloudflare-Smart-Transit'
406   url: 'https://developers.cloudflare.com/fundamentals/reference/cloudflare-site-crawling/'
411 - regex: 'CloudflareObservatory'
414   url: 'https://developers.cloudflare.com/speed/speed-test/run-speed-test'
419 - regex: 'https://developers\.cloudflare\.com/security-center/'
422   url: 'https://developers.cloudflare.com/fundamentals/reference/cloudflare-site-crawling/'
427 - regex: 'coccoc\.com'
429   url: 'https://help.coccoc.com/en/search-engine/coccoc-robots'
435 - regex: 'collectd'
443 - regex: 'CommaFeed'
451 - regex: 'CSS Certificate Spider'
454   url: 'http://www.css-security.com/certificatespider/'
457     url: 'https://www.css-security.com/company/about-us/'
459 - regex: 'Datadog Agent|Datadog/?Synthetics'
461   url: 'https://github.com/DataDog/dd-agent'
467 - regex: 'Datanyze'
475 - regex: 'Dataprovider'
483 - regex: 'Daum(?!(?:Apps|Device))'
491 - regex: 'Dazoobot'
499 - regex: 'discobot'
507 - regex: 'Domain Re-Animator Bot|support@domainreanimator\.com'
508   name: 'Domain Re-Animator Bot'
512     name: 'Domain Re-Animator, LLC'
515 - regex: 'DotBot'
523 - regex: 'DuckDuck(?:Go-Favicons-)?Bot'
526   url: 'https://duckduckgo.com/duckduckgo-help-pages/results/duckduckbot/'
531 - regex: 'DuckAssistBot'
534   url: 'https://duckduckgo.com/duckduckgo-help-pages/results/duckassistbot/'
539 - regex: 'EasouSpider'
547 - regex: 'eCairn-Grabber'
548   name: 'eCairn-Grabber'
554 - regex: 'EMail Exractor'
562 - regex: 'evc-batch'
563   name: 'evc-batch'
570 - regex: 'Exabot|ExaleadCloudview'
578 - regex: 'ExactSeek Crawler'
586 - regex: 'Ezooms'
594 - regex: 'facebook(?:catalog|externalhit|externalua|platform|scraper)'
597   url: 'https://developers.facebook.com/docs/sharing/webmasters/web-crawlers'
602 - regex: 'meta-externalagent'
603   name: 'Meta-ExternalAgent'
605   url: 'https://developers.facebook.com/docs/sharing/webmasters/web-crawlers'
610 - regex: 'meta-externalfetcher'
611   name: 'Meta-ExternalFetcher'
613   url: 'https://developers.facebook.com/docs/sharing/webmasters/web-crawlers'
618 - regex: 'FacebookBot'
626 - regex: 'Feedbin'
634 - regex: 'FeedBurner'
642 - regex: 'Feed Wrangler'
648     url: 'https://david-smith.org'
650 - regex: 'Feedly'
658 - regex: 'Feedspot'
666 - regex: 'Fever/'
674 - regex: 'FlipboardProxy|FlipboardRSS'
682 - regex: 'Findxbot'
687 - regex: 'FreshRSS'
692 - regex: 'Genieo'
700 - regex: 'GigablastOpenSource'
703   url: 'https://github.com/gigablast/open-source-search-engine'
708 - regex: 'Gluten Free Crawler'
716 - regex: 'gobuster'
720 - regex: 'ichiro/mobile goo'
723   url: 'http://search.goo.ne.jp/option/use/sub4/sub4-1'
728 - regex: 'Storebot-Google'
732 - regex: 'Google Favicon'
736 - regex: 'Google Search Console'
739   url: 'https://search.google.com/search-console/about'
744 - regex: 'Google Page Speed Insights'
752 - regex: 'google_partner_monitoring'
760 - regex: 'Google-Cloud-Scheduler'
768 - regex: 'Google-Structured-Data-Testing-Tool'
771   url: 'https://search.google.com/structured-data/testing-tool'
776 - regex: 'GoogleStackdriverMonitoring'
784 - regex: 'Google-Transparency-Report'
792 - regex: 'Google-CloudVertexBot'
793   name: 'Google-CloudVertexBot'
795 …url: 'https://developers.google.com/search/docs/crawling-indexing/google-common-crawlers#google-cl…
800 - regex: 'via ggpht\.com GoogleImageProxy'
808 - regex: 'Google-Document-Conversion'
809   name: 'Google-Document-Conversion'
816 - regex: 'GoogleDocs; apps-spreadsheets'
824 - regex: 'GoogleDocs; apps-presentations'
832 - regex: 'GoogleDocs;'
840 - regex: 'SeznamEmailProxy'
848 - regex: 'Seznam-Zbozi-robot'
856 - regex: 'Heurekabot-Feed'
864 - regex: 'ShopAlike'
872 - regex: 'deepcrawl\.com'
880 - regex: 'Googlebot-News'
883   url: 'https://developers.google.com/search/docs/crawling-indexing/overview-google-crawlers'
888 - regex: 'Adwords-(?:DisplayAds|Express|Instant)|Google Web Preview|Google[ -]Publisher[ -]Plugin|G…
891   url: 'https://developers.google.com/search/docs/crawling-indexing/overview-google-crawlers'
896 - regex: '^Google$'
899   url: 'https://developers.google.com/search/docs/crawling-indexing/overview-google-crawlers'
904 - regex: 'Google-Safety'
905   name: 'Google-Safety'
907   url: 'https://developers.google.com/search/docs/crawling-indexing/google-special-case-crawlers'
912 - regex: 'DuplexWeb-Google'
913   name: 'DuplexWeb-Google'
915   url: 'https://developers.google.com/search/docs/crawling-indexing/google-special-case-crawlers'
920 - regex: 'Google-Area120-PrivacyPolicyFetcher'
928 - regex: 'HubSpot '
935 - regex: 'vuhuv(?:Bot|RBT)'
940 - regex: 'HTTPMon'
948 - regex: 'ICC-Crawler'
949   name: 'ICC-Crawler'
951   url: 'http://www.nict.go.jp/en/univ-com/plan/crawl.html'
956 - regex: 'inoreader\.com'
961 - regex: 'iisbot'
969 - regex: 'ips-agent'
976 - regex: 'IP-Guide\.com'
977   name: 'IP-Guide Crawler'
982     url: 'https://ip-guide.com'
984 - regex: 'k6/'
988 - regex: 'kouio'
996 - regex: 'larbin'
1004 - regex: '[A-z0-9]*-Lighthouse'
1012 - regex: 'last-modified\.com'
1015   url: 'https://last-modified.com/en/about'
1018     url: 'https://last-modified.com/en'
1020 - regex: 'linkdexbot|linkdex\.com'
1028 - regex: 'LinkedInBot'
1036 - regex: 'ltx71'
1044 - regex: 'Mail\.RU'
1052 - regex: 'magpie-crawler'
1053   name: 'Magpie-Crawler'
1055   url: 'http://www.brandwatch.com/magpie-crawler/'
1060 - regex: 'MagpieRSS'
1068 - regex: 'masscan-ng'
1069   name: 'masscan-ng'
1070   url: 'https://github.com/bi-zone/masscan-ng'
1076 - regex: '.*masscan'
1084 - regex: 'Mastodon/'
1088 - regex: 'meanpathbot'
1096 - regex: 'MetaJobBot'
1104 - regex: 'MetaInspector'
1109 - regex: 'MixrankBot'
1117 - regex: 'MJ12bot'
1122     name: 'Majestic-12'
1125 - regex: 'Mnogosearch'
1132 - regex: 'MojeekBot'
1140 - regex: 'munin'
1143   url: 'http://munin-monitoring.org/'
1146     url: 'http://munin-monitoring.org/'
1148 - regex: 'NalezenCzBot'
1151   url: 'http://www.nalezen.cz/about-crawler'
1156 - regex: 'check_http/v'
1164 - regex: 'nbertaupete95\(at\)gmail\.com'
1168 - regex: 'Netcraft(?: Web Server Survey| SSL Server Survey|SurveyAgent)'
1176 - regex: 'netEstate NE Crawler'
1179   url: 'http://www.website-datenbank.de/Impressum'
1184 - regex: 'Netvibes'
1192 - regex: 'NewsBlur .*(?:Fetcher|Finder)'
1200 - regex: 'NewsGatorOnline'
1208 - regex: 'nlcrawler'
1216 - regex: 'Nmap Scripting Engine'
1224 - regex: 'Nuzzel'
1231 - regex: 'NodePing'
1239 - regex: 'Octopus [\d.]+'
1242 - regex: 'OnlineOrNot\.com_bot'
1245   url: 'https://onlineornot.com/website-monitoring'
1250 - regex: 'omgili'
1258 - regex: 'OpenindexSpider'
1266 - regex: 'spbot'
1274 - regex: 'OpenWebSpider'
1282 - regex: 'OrangeBot|VoilaBot'
1290 - regex: 'PaperLiBot'
1293   url: 'http://support.paper.li/entries/20023257-what-is-paper-li'
1298 - regex: 'phantomas/'
1303 - regex: 'phpservermon'
1311 - regex: 'Pocket(?:ImageCache|Parser)'
1313   category: 'Read-it-later Service'
1319 - regex: 'PritTorrent'
1327 - regex: 'PRTG Network Monitor'
1335 - regex: 'psbot'
1343 - regex: 'Pingdom(?:\.com|TMS)'
1351 - regex: 'Quora Link Preview'
1359 - regex: 'Quora-Bot'
1367 - regex: 'RamblerMail'
1373     url: 'https://rambler-co.ru/'
1375 - regex: 'QuerySeekerSpider'
1383 - regex: 'Qwantify|Qwantbot'
1391 - regex: 'Rainmeter'
1396 - regex: 'redditbot'
1404 - regex: 'Riddler'
1409     name: 'F-Secure'
1410     url: 'https://www.f-secure.com'
1412 - regex: 'rogerbot'
1415   url: 'http://moz.com/help/pro/what-is-rogerbot-'
1420 - regex: 'ROI Hunter'
1428 - regex: 'SafeDNSBot'
1436 - regex: 'Scrapy'
1441 - regex: 'Screaming Frog SEO Spider'
1444   url: 'http://www.screamingfrog.co.uk/seo-spider'
1449 - regex: 'ScreenerBot'
1457 - regex: 'SemrushBot'
1465 - regex: 'BacklinksExtendedBot'
1473 - regex: 'SerpReputationManagementAgent'
1481 - regex: 'SplitSignalBot'
1489 - regex: 'SiteAuditBot'
1497 - regex: 'SensikaBot'
1505 - regex: 'SEOENG(?:World)?Bot'
1513 - regex: 'seoscanners\.net'
1518 - regex: 'SkypeUriPreview'
1526 - regex: 'SeznamBot|SklikBot|Seznam screenshot-generator'
1534 - regex: 'shopify-partner-homepage-scraper'
1542 - regex: 'ShopWiki'
1550 - regex: 'SilverReader'
1558 - regex: 'SimplePie'
1566 - regex: 'SISTRIX Crawler'
1574 - regex: 'compatible; (?:SISTRIX )?Optimizer'
1582 - regex: 'SiteSucker'
1585   url: 'http://ricks-apps.com/osx/sitesucker/'
1587 - regex: 'sixy\.ch'
1595 - regex: 'Slackbot|Slack-ImgProxy'
1603 - regex: 'Sogou[ -](?:head|inst|Orion|Pic|Test|web)[ -]spider|New-Sogou-Spider'
1611 - regex: 'Sosospider|Sosoimagespider'
1619 - regex: 'Sprinklr'
1627 - regex: 'SSL Labs'
1635 - regex: 'StatusCake'
1643 - regex: 'Superfeedr bot'
1651 - regex: 'Sparkler'
1656 - regex: 'Spinn3r'
1664 - regex: 'SputnikBot'
1669 - regex: 'SputnikFaviconBot'
1674 - regex: 'SputnikImageBot'
1679 - regex: 'SurveyBot'
1687 - regex: 'TarmotGezgin'
1692 - regex: 'TelegramBot'
1694   url: 'https://telegram.org/blog/bot-revolution'
1696 - regex: 'TLSProbe'
1704 - regex: 'TinEye-bot'
1712 - regex: 'Tiny Tiny RSS'
1714   url: 'http://tt-rss.org'
1720 - regex: 'theoldreader\.com'
1725 - regex: 'Trackable/0\.1'
1728   url: 'https://help.chartable.com/article/34-what-is-the-trackable-analytics-prefix'
1733 - regex: 'trendictionbot'
1741 - regex: 'TurnitinBot'
1749 - regex: 'TweetedTimes'
1757 - regex: 'TweetmemeBot'
1765 - regex: 'Twingly Recon'
1772 - regex: 'Twitterbot'
1775   url: 'https://dev.twitter.com/docs/cards/getting-started'
1780 - regex: 'UniversalFeedParser'
1788 - regex: 'via secureurl\.fwdcdn\.com'
1796 - regex: 'Uptime(?:bot)?/'
1799   url: 'https://uptime.com/uptime-bot'
1804 - regex: 'UptimeRobot'
1812 - regex: 'URLAppendBot'
1820 - regex: 'Vagabondo'
1826     url: 'http://www.wise-guys.nl/'
1828 - regex: 'vkShare; '
1836 - regex: 'VKRobot'
1844 - regex: 'VSMCrawler'
1852 - regex: 'Jigsaw'
1855   url: 'http://jigsaw.w3.org/css-validator'
1860 - regex: 'W3C_I18n-Checker'
1863   url: 'http://validator.w3.org/i18n-checker'
1868 - regex: 'W3C-checklink'
1876 - regex: 'W3C_Validator|Validator\.nu'
1884 - regex: 'W3C-mobileOK'
1892 - regex: 'W3C_Unicorn'
1900 - regex: 'P3P Validator'
1908 - regex: 'Wappalyzer'
1915 - regex: 'PTST/'
1920 - regex: 'WeSEE'
1928 - regex: 'WebbCrawler'
1936 - regex: 'websitepulse[+ ]checker'
1944 - regex: 'WordPress.+isitwp\.com'
1952 - regex: 'Automattic Analytics Crawler'
1960 - regex: 'WordPress\.com mShots'
1968 - regex: 'wp\.com feedbot'
1976 - regex: 'WordPress'
1984 - regex: 'Wotbox'
1992 - regex: 'XenForo'
2000 - regex: 'yacybot'
2008 - regex: 'Yahoo! Slurp|Yahoo!-AdCrawler'
2016 - regex: 'Yahoo Link Preview|Yahoo:LinkExpander:Slingstone'
2019   url: 'https://help.yahoo.com/kb/mail/yahoo-link-preview-SLN23615.html'
2024 - regex: 'YahooMailProxy'
2027   url: 'https://help.yahoo.com/kb/yahoo-mail-proxy-SLN28749.html'
2032 - regex: 'YahooCacheSystem'
2040 - regex: 'Y!J-BRW'
2043   url: 'https://support.yahoo-net.jp/PccSearch/s/article/H000007955'
2048 - regex: 'Y!J-WSC'
2051   url: 'https://support.yahoo-net.jp/PccSearch/s/article/H000007955'
2056 - regex: 'Y!J-ASR'
2059   url: 'https://support.yahoo-net.jp/PccSearch/s/article/H000007955'
2064 - regex: '^Y!J'
2067   url: 'https://support.yahoo-net.jp/PccSearch/s/article/H000007955'
2072 - regex: 'Yandex(?:(?:\.Gazeta |Accessibility|Mobile|MobileScreenShot|RenderResources|Screenshot|Sp…
2075   url: 'https://yandex.com/support/webmaster/robot-workings/check-yandex-robots.html'
2080 - regex: 'Yeti|NaverJapan|AdsBot-Naver'
2088 - regex: 'YoudaoBot'
2096 - regex: 'YOURLS'
2101 - regex: 'YRSpider|YYSpider'
2109 - regex: 'zgrab'
2114 - regex: 'Zookabot'
2122 - regex: 'ZumBot'
2130 - regex: 'YottaaMonitor'
2133   url: 'http://www.yottaa.com/products/site-monitor'
2138 - regex: 'Yahoo Ad monitoring.*yahoo-ad-monitoring-SLN24857'
2141   url: 'https://help.yahoo.com/kb/yahoo-ad-monitoring-SLN24857.html'
2146 - regex: '.*Java.*outbrain'
2154 - regex: 'HubPages.*crawlingpolicy'
2162 - regex: 'Pinterest(?:bot)?/.*www\.pinterest\.com'
2164   url: 'https://help.pinterest.com/en/business/article/pinterest-crawler'
2170 - regex: '.*Site24x7'
2173   url: 'https://www.site24x7.com/site24x7-faq.html'
2178 - regex: '.* HLB'
2181 …ttps://support.site24x7.com/portal/en/kb/articles/default-user-agent-used-in-website-defacement-mo…
2186 - regex: 's~snapchat-proxy'
2194 - regex: 'Snap URL Preview Service'
2202 - regex: 'SnapchatAds'
2205   url: 'https://businesshelp.snapchat.com/s/article/adsbot-crawler?language=en_US'
2210 - regex: "Let's Encrypt validation server"
2213   url: 'https://letsencrypt.org/how-it-works/'
2218 - regex: 'GrapeshotCrawler'
2226 - regex: 'www\.monitor\.us'
2234 - regex: 'Catchpoint'
2242 - regex: 'bitlybot'
2250 - regex: 'Zao/'
2254 - regex: 'lycos'
2257 - regex: 'Slurp'
2260 - regex: 'Speedy Spider'
2263 - regex: 'ScoutJet'
2266 - regex: 'nrsbot|netresearch'
2269 - regex: 'scooter'
2272 - regex: 'gigabot'
2275 - regex: 'charlotte'
2278 - regex: 'Pompos'
2281 - regex: 'ichiro'
2284 - regex: 'PagePeeker'
2292 - regex: 'WebThumbnail'
2295 - regex: 'Willow Internet Crawler'
2298 - regex: 'EmailWolf'
2301 - regex: 'NetLyzer FastProbe'
2304 - regex: 'AdMantX.*admantx\.com'
2307 - regex: 'Server Density Service Monitoring'
2310 - regex: 'RSSRadio \(Push Notification Scanner;support@dorada\.co\.uk\)'
2313 - regex: '^sentry'
2319 - regex: '^Spotify/[\d.]+$'
2325 - regex: 'The Knowledge AI'
2329 - regex: 'Embedly'
2332   url: 'https://support.embed.ly/hc/en-us'
2337 - regex: 'BrandVerity'
2340   url: 'https://www.brandverity.com/why-is-brandverity-visiting-me'
2345 - regex: 'Kaspersky Lab CFR link resolver'
2353 - regex: 'eZ Publish Link Validator'
2361 - regex: 'woorankreview'
2369 - regex: 'Siteimprove'
2377 - regex: 'CATExplorador'
2385 - regex: 'Buck'
2393 - regex: 'tracemyfile'
2401 - regex: 'zelist\.ro feed parser'
2409 - regex: 'weborama-fetcher'
2417 - regex: 'BoardReader Favicon Fetcher'
2425 - regex: 'IDG/(?:EU|IT|RU|UK)'
2433 - regex: 'Bytespider'
2441 - regex: 'WikiDo'
2449 - regex: 'Awario(?:Smart)?Bot'
2457 - regex: 'AwarioRssBot'
2465 - regex: 'oBot'
2468   url: 'https://www.xforce-security.com/crawler/'
2473 - regex: 'SMTBot'
2481 - regex: 'LCC'
2484   url: 'https://corpora.uni-leipzig.de/crawler_faq.html'
2487     url: 'https://www.uni-leipzig.de/'
2489 - regex: 'Startpagina-Linkchecker'
2497 - regex: 'MoodleBot-Linkchecker'
2505 - regex: 'GTmetrix'
2513 - regex: 'CyberFind ?Crawler'
2521 - regex: 'Nutch'
2522   name: 'Nutch-based Bot'
2529 - regex: 'Seobility'
2534 - regex: 'Vercelbot'
2539 - regex: 'Grammarly'
2544 - regex: 'Robozilla'
2548 - regex: 'Domains Project'
2553 - regex: 'PetalBot'
2558 - regex: 'SerendeputyBot'
2561   url: 'https://serendeputy.com/about/serendeputy-bot'
2563 - regex: 'ias-(?:va|sg).*admantx.*service-fetcher|admantx\.com.*service-fetcher'
2566   url: 'https://www.admantx.com/service-fetcher.html'
2568 - regex: 'SemanticScholarBot'
2573 - regex: 'VelenPublicWebCrawler'
2578 - regex: 'Barkrowler'
2583 - regex: 'BDCbot'
2591 - regex: 'adbeat'
2599 - regex: '(?:BuiltWith|BW/)'
2607 - regex: 'https://whatis\.contentkingapp\.com'
2615 - regex: 'MicroAdBot'
2623 - regex: 'PingAdmin\.Ru'
2626   url: 'https://ping-admin.ru/'
2628 - regex: 'notifyninja.+monitoring'
2633 - regex: 'WebDataStats'
2641 - regex: 'parse\.ly scraper'
2649 - regex: 'Nimbostratus-Bot'
2654 - regex: 'HeartRails_Capture'
2659 - regex: 'Project-Resonance'
2662   url: 'https://project-resonance.com/'
2667 - regex: 'DataXu'
2675 - regex: 'Cocolyzebot'
2681     url: 'https://vsi-innovation.com/'
2683 - regex: 'veryhip'
2691 - regex: 'LinkpadBot'
2699 - regex: 'MuscatFerret'
2704 - regex: 'PageThing\.com'
2712 - regex: 'ArchiveBox'
2720 - regex: 'Choosito'
2728 - regex: 'datagnionbot'
2736 - regex: 'WhatCMS'
2744 - regex: 'httpx'
2752 - regex: '.*\.oast\.'
2760 - regex: 'scaninfo@(?:expanseinc|paloaltonetworks)\.com'
2768 - regex: 'HuaweiWebCatBot'
2776 - regex: 'Hatena-Favicon'
2783 - regex: 'Hatena-?Bookmark'
2791 - regex: 'RyowlEngine'
2796 - regex: 'OdklBot'
2801 - regex: 'Mediatoolkitbot'
2806 - regex: 'ZoominfoBot'
2811 - regex: 'WeViKaBot'
2816 - regex: 'SEOkicks'
2824 - regex: 'Plukkie'
2829 - regex: 'proximic;'
2832   url: 'https://www.comscore.com/Web-Crawler'
2834 - regex: 'SurdotlyBot'
2839 - regex: 'Gowikibot'
2844 - regex: 'SabsimBot'
2849 - regex: 'LumtelBot'
2854 - regex: 'PiplBot'
2859 - regex: 'woobot'
2864 - regex: 'Cookiebot'
2867   url: 'https://support.cookiebot.com/hc/en-us/articles/360014264140-Scanner-User-Agent'
2872 - regex: 'NetSystemsResearch'
2880 - regex: 'CensysInspect'
2888 - regex: 'gdnplus\.com'
2896 - regex: 'WellKnownBot'
2899   url: 'https://well-known.dev'
2901 - regex: 'Adsbot'
2906 - regex: 'MTRobot'
2909   url: 'https://metrics-tools.de/robot.html'
2912     url: 'https://metrics-tools.de/'
2914 - regex: 'serpstatbot'
2922 - regex: 'colly'
2927 - regex: 'l9tcpid'
2932 - regex: 'l9explore'
2937 - regex: 'l9scan/|^Lkx-.*/'
2945 - regex: 'MegaIndex\.ru'
2950 - regex: 'Seekport'
2958 - regex: 'Seolyt(?:Bot)?'
2963 - regex: 'YaK/'
2971 - regex: 'KomodiaBot'
2979 - regex: 'KStandBot'
2982   url: 'https://url-classification.io/wiki/index.php?title=URL_server_crawler'
2987 - regex: 'Neevabot'
2995 - regex: 'Chatwork LinkPreview'
3003 - regex: 'LinkPreview'
3008 - regex: 'JungleKeyThumbnail'
3013 - regex: 'rocketmonitor(?:bot)?'
3016   url: 'https://www.radiomast.io/docs/stream-monitoring/technical_details.html'
3021 - regex: 'SitemapParser-VIPnytt'
3022   name: 'SitemapParser-VIPnytt'
3026 - regex: '^Turnitin'
3031 - regex: 'DMBrowser|DMBrowser-[UB]V'
3034   url: 'https://www.dotcom-monitor.com'
3036 - regex: 'ThinkChaos/'
3040 - regex: 'DataForSeoBot'
3043   url: 'https://dataforseo.com/dataforseo-bot'
3045 - regex: 'Discordbot'
3050 - regex: 'Linespider'
3055 - regex: 'Cincraw'
3060 - regex: 'CISPA Web Analyzer'
3065     name: 'CISPA - Helmholtz-Zentrum für Informationssicherheit gGmbH'
3068 - regex: 'IonCrawl'
3071   url: 'https://www.ionos.de/terms-gtc/faq-crawler-en/'
3076 - regex: 'Crawldad'
3081 - regex: 'https://securitytxt-scan\.cs\.hm\.edu/'
3084   url: 'https://securitytxt-scan.cs.hm.edu/'
3089 - regex: 'TigerBot'
3094 - regex: 'TestCrawler'
3099 - regex: 'CrowdTanglebot'
3102   url: 'https://help.crowdtangle.com/en/articles/3009319-crowdtangle-bot'
3107 - regex: 'Sellers\.Guide Crawler by Primis'
3115 - regex: 'OnalyticaBot'
3118   url: 'https://www.airslate.com/bot/explore/onalytica-bot'
3123 - regex: 'deepnoc'
3131 - regex: 'Newslitbot'
3139 - regex: 'um-(?:ANS|CC|FC|IC|LN)'
3142   url: 'https://www.ubermetrics-technologies.com/'
3145     url: 'https://www.ubermetrics-technologies.com/'
3147 - regex: 'Abonti'
3152 - regex: 'collection@infegy\.com'
3160 - regex: 'HTTP Banner Detection \(https://security\.ipip\.net\)'
3168 - regex: 'ev-crawler'
3176 - regex: 'webprosbot'
3184 - regex: 'ELB-HealthChecker'
3192 - regex: 'Wheregoes\.com Redirect Checker'
3197 - regex: 'project_patchwatch'
3202 - regex: 'InternetMeasurement'
3205   url: 'https://internet-measurement.com/'
3207 - regex: 'DomainAppender'
3215 - regex: 'FreeWebMonitoring SiteChecker'
3223 - regex: 'Page Modified Pinger'
3231 - regex: 'adstxtlab\.com'
3239 - regex: 'Iframely'
3247 - regex: 'DomainStatsBot'
3250   url: 'https://domainstats.com/pages/our-bot'
3255 - regex: 'aiHitBot'
3260 - regex: 'DomainCrawler/'
3263   url: 'https://domaincrawler.com/about-us/'
3265 - regex: 'DNSResearchBot'
3269 - regex: 'GitCrawlerBot'
3273 - regex: 'AdAuth'
3278 - regex: 'faveeo\.com'
3283 - regex: 'kozmonavt\.'
3288 - regex: 'CriteoBot/'
3291   url: 'https://www.criteo.com/criteo-crawler/'
3293 - regex: 'PayPal IPN'
3296   url: 'https://developer.paypal.com/api/nvp-soap/ipn/IPNIntro/'
3301 - regex: 'MaCoCu'
3304 …url: 'https://www.clarin.si/info/macocu-massive-collection-and-curation-of-monolingual-and-bilingu…
3309 - regex: 'CLASSLA'
3310   name: 'CLASSLA-web'
3312   url: 'https://www.clarin.si/info/classla-web-crawler/'
3317 - regex: 'dnt-policy@eff\.org'
3320   url: 'https://www.eff.org/issues/do-not-track'
3325 - regex: 'InfoTigerBot'
3333 - regex: '(?:Birdcrawlerbot|CrawlaDeBot)'
3341 - regex: 'ScamadviserExternalHit'
3349 - regex: 'ZaldamoSearchBot'
3357 - regex: 'AFB'
3362 - regex: 'LinkWalker'
3370 - regex: 'RenovateBot'
3376     url: 'https://www.mend.io/free-developer-tools/renovate/'
3378 - regex: 'INETDEX-BOT'
3383 - regex: 'NETZZAPPEN'
3391 - regex: 'panscient\.com'
3399 - regex: 'research@pdrlabs\.net'
3407 - regex: 'Nicecrawler'
3415 - regex: 't3versionsBot'
3423 - regex: 'Crawlson'
3431 - regex: 'tchelebi'
3439 - regex: 'JobboerseBot'
3447 - regex: 'RepoLookoutBot'
3450   url: 'https://www.repo-lookout.org/'
3455 - regex: 'PATHspider'
3461     url: 'https://mami-project.eu/'
3463 - regex: 'everyfeed-spider'
3471 - regex: 'Exchange check'
3479 - regex: 'Sublinq'
3487 - regex: 'Gregarius'
3495 - regex: 'COMODO DCV'
3503 - regex: 'Sectigo DCV|acme\.sectigo\.com'
3511 - regex: 'KlarnaBot-(?:DownloadProductImage|EnrichProducts|PriceWatcher)'
3514   url: 'https://docs.klarna.com/klarna-bot/'
3519 - regex: 'Taboolabot'
3522   url: 'https://help.taboola.com/hc/en-us/articles/115002347594-The-Taboola-Crawler'
3527 - regex: 'Asana'
3535 - regex: 'Chrome Privacy Preserving Prefetch Proxy'
3538   url: 'https://developer.chrome.com/blog/private-prefetch-proxy/'
3543 - regex: 'URLinspectorBot'
3551 - regex: 'EntferBot'
3559 - regex: 'TagInspector'
3567 - regex: 'pageburst'
3575 - regex: '.+diffbot'
3578   url: 'https://docs.diffbot.com/docs/getting-started-with-crawl'
3583 - regex: 'DisqusAdstxtCrawler'
3586   url: 'https://help.disqus.com/en/articles/1765357-ads-txt-implementation-guide'
3591 - regex: 'startmebot'
3599 - regex: '2ip bot'
3604 - regex: 'ReqBin Curl Client'
3609 - regex: 'XoviBot'
3617 - regex: 'Overcast/.+Podcast Sync'
3622 - regex: '^Verity'
3627 - regex: 'hackermention'
3632 - regex: 'BitSightBot'
3640 - regex: 'Ezgif'
3645 - regex: 'intelx\.io_bot'
3646   name: 'Intelligence X'
3653 - regex: 'FemtosearchBot'
3661 - regex: 'AdsTxtCrawler/'
3669 - regex: 'Morningscore'
3677 - regex: 'Uptime-Kuma'
3678   name: 'Uptime-Kuma'
3680   url: 'https://github.com/louislam/uptime-kuma'
3682 - regex: 'OAI-SearchBot'
3683   name: 'OAI-SearchBot'
3690 - regex: 'GPTBot'
3698 - regex: 'ChatGPT-User'
3699   name: 'ChatGPT-User'
3706 - regex: 'BrightEdge Crawler'
3714 - regex: 'sfFeedReader'
3716   url: 'https://github.com/diem-project/sfFeed2Plugin'
3719 - regex: 'cyberscan\.io'
3727 - regex: 'researchscan\.comsys\.rwth-aachen\.de'
3730   url: 'http://researchscan.comsys.rwth-aachen.de/'
3733     url: 'https://www.comsys.rwth-aachen.de/'
3735 - regex: 'newspaper'
3743 - regex: 'Ant(?:\.com beta|Bot)'
3751 - regex: 'WebwikiBot'
3759 - regex: 'phpMyAdmin'
3764 - regex: 'Matomo/[\d.]+'
3767   url: 'https://github.com/matomo-org/matomo'
3772 - regex: 'Prometheus'
3780 - regex: 'ArchiveTeam ArchiveBot'
3788 - regex: 'MADBbot'
3793 - regex: 'MeltwaterNews'
3800 - regex: 'owler'
3808 - regex: 'bbc\.co\.uk/display/men/Page\+Monitor'
3816 - regex: 'BBC-Forge-URL-Monitor-Twisted'
3824 - regex: 'ClaudeBot'
3829 - regex: 'Imagesift'
3837 - regex: 'TactiScout'
3840   url: 'https://find-it.world/TempCrawl/Crawltheque.php'
3844 - regex: 'Brightbot'
3852 - regex: 'DaspeedBot'
3860 - regex: 'StractBot'
3868 - regex: 'GeedoBot'
3873 - regex: 'GeedoProductSearch'
3876   url: 'https://geedo.com/product-search/'
3878 - regex: 'BackupLand'
3886 - regex: 'Konturbot'
3894 - regex: 'keys-so-bot'
3902 - regex: 'LetsearchBot'
3907 - regex: 'Example3'
3912 - regex: 'StatOnlineRuBot'
3920 - regex: 'Spawning-AI'
3928 - regex: 'domain research project'
3936 - regex: 'getodin\.com'
3944 - regex: 'YouBot'
3952 - regex: 'SiteScoreBot'
3957 - regex: 'MBCrawler'
3960   url: 'https://www.seoptimer.com/monitor-backlinks/'
3965 - regex: 'mariadb-mysql-kbs-bot'
3968   url: 'https://github.com/williamdes/mariadb-mysql-kbs'
3973 - regex: 'GitHubCopilotChat'
3976   url: 'https://github.com/aaamoon/copilot-gpt4-service'
3978 - regex: '^pdrl\.fm'
3983 - regex: 'PodUptime/'
3988 - regex: 'anthropic-ai'
3996 - regex: 'NetpeakCheckerBot'
4004 - regex: 'SandobaCrawler'
4012 - regex: 'SirdataBot'
4015   url: 'https://semantic-api.docs.sirdata.net/contextual-api/contextual-api/introduction'
4020 - regex: 'CheckMarkNetwork'
4028 - regex: 'cohere-ai'
4036 - regex: 'PerplexityBot'
4044 - regex: 'TTD-Content'
4047   url: 'https://www.thetradedesk.com/us/ttd-content'
4052 - regex: 'montastic-monitor'
4060 - regex: 'Ruby, Twurly v'
4065 - regex: 'Mixnode(?:Cache)?'
4073 - regex: 'CSSCheck'
4077 - regex: 'MicrosoftPreview'
4080   url: 'https://www.bing.com/webmasters/help/which-crawlers-does-bing-use-8c184ec0'
4085 - regex: 's~virustotalcloud'
4093 - regex: 'TinEye'
4101 - regex: 'e~arsnova-filter-system'
4109 - regex: 'botify'
4117 - regex: 'adscanner'
4125 - regex: 'online-webceo-bot'
4133 - regex: 'NetTrack'
4138 - regex: 'htmlyse'
4146 - regex: 'TrendsmapResolver'
4154 - regex: 'Shareaholic(?:bot)?'
4162 - regex: 'keycdn-tools:'
4167 - regex: 'keycdn-tools/'
4175 - regex: 'Arquivo-web-crawler'
4178   url: 'https://sobre.arquivo.pt/en/help/crawling-and-archiving-web-content/'
4183 - regex: 'WhatsMyIP\.org'
4188 - regex: 'SenutoBot'
4196 - regex: 'GozleBot'
4204 - regex: 'Quantcastbot'
4212 - regex: 'FontRadar'
4220 - regex: 'ViberUrlDownloader'
4228 - regex: '^Zeno$'
4236 - regex: 'Barracuda Sentinel'
4244 - regex: 'RuxitSynthetic'
4247   url: 'https://community.dynatrace.com/t5/Troubleshooting/Basic-Commands-for-Synthetic/ta-p/198164'
4252 - regex: 'DynatraceSynthetic'
4255   url: 'https://community.dynatrace.com/t5/Troubleshooting/Basic-Commands-for-Synthetic/ta-p/198164'
4260 - regex: 'sitebulb'
4268 - regex: 'Monsidobot'
4271   url: 'https://monsido.com/bot-html'
4276 - regex: 'AccompanyBot'
4284 - regex: 'Ghost Inspector'
4287 …url: 'https://docs.ghostinspector.com/faq/#how-do-i-detect-ghost-inspector-test-runner-traffic-on-…
4292 - regex: 'Google-Apps-Script'
4297 - regex: 'SiteOne-Crawler'
4305 - regex: 'Detectify'
4308 …port.detectify.com/support/solutions/articles/48001049001-how-to-allow-detectify-to-access-your-si…
4313 - regex: 'DomCopBot'
4321 - regex: 'Paqlebot'
4329 - regex: 'Wibybot'
4334 - regex: 'Synapse'
4337   url: 'https://github.com/matrix-org/synapse'
4339 - regex: 'OSZKbot'
4347 - regex: 'ZoomBot'
4355 - regex: 'RavenCrawler'
4358   url: 'https://raventools.com/site-auditor/'
4363 - regex: 'KadoBot'
4371 - regex: 'Dubbotbot'
4374   url: 'https://help.dubbot.com/en/articles/6746594-example-custom-user-agent'
4379 - regex: 'Swiftbot'
4387 - regex: 'EyeMonIT'
4395 - regex: 'ThousandEyes'
4403 - regex: 'OmtrBot'
4407 - regex: 'WebMon'
4411 - regex: 'AdsTxtCrawlerTP'
4415 - regex: 'fragFINN'
4423 - regex: 'Clickagy'
4431 - regex: 'kiwitcms-gitops'
4439 - regex: 'webtru_crawler'
4447 - regex: 'URLSuMaBot'
4452 - regex: '360JK yunjiankong'
4460 - regex: 'UCSBNetworkMeasurement'
4468 - regex: 'Plesk screenshot bot'
4471   url: 'https://support.plesk.com/hc/en-us/articles/13302778306199-What-is-Plesk-Screenshot-Service'
4476 - regex: 'Who\.is'
4481 - regex: 'Probely'
4486     name: 'Probely - Soluções de Cibersegurança, S.A.'
4489 - regex: 'Uptimia'
4497 - regex: '2GDPR'
4505 - regex: 'abuse\.xmco\.fr'
4513 - regex: 'CheckHost'
4516   url: 'https://check-host.net/'
4519     url: 'https://check-host.net/'
4521 - regex: 'LAC_IAHarvester'
4524 …url: 'https://library-archives.canada.ca/eng/services/government-canada/web-social-media-preservat…
4527     url: 'https://library-archives.canada.ca/'
4529 - regex: 'InsytfulBot'
4537 - regex: 'statista\.com'
4545 - regex: 'SubstackContentFetch'
4553 - regex: '^ds9'
4556 …url: 'https://www.copyright.com/blog/ccc-expands-corporate-solutions-offering-with-new-technology/'
4561 - regex: 'LiveJournal\.com'
4569 - regex: 'bitdiscovery'
4577 - regex: 'Castopod'
4582 - regex: 'Elastic/Synthetics'
4590 - regex: 'WDG_Validator'
4595 - regex: 'scan@aegis.network'
4600 - regex: 'CrawlyProjectCrawler'
4605 - regex: 'BDFetch'
4610 - regex: 'PunkMap'
4615 - regex: 'GenomeCrawlerd'
4618   url: 'https://www.nokia.com/networks/ip-networks/deepfield/genome/'
4623 - regex: 'Gaisbot'
4628 - regex: 'FAST-WebCrawler'
4633 - regex: 'ducks\.party'
4638 - regex: 'DepSpid'
4643 - regex: 'Website-info\.net'
4644   name: 'Website-info'
4646   url: 'https://website-info.net/robot'
4651 - regex: 'RedekenBot'
4659 - regex: 'semaltbot'
4667 - regex: 'MakeMerryBot'
4672 - regex: 'Timpibot'
4680 - regex: 'Validbot'
4688 - regex: 'NPBot'
4696 - regex: 'domaincodex\.com'
4704 - regex: 'Swisscows Favicons'
4712 - regex: 'leak\.info'
4717 - regex: 'workona'
4725 - regex: 'Bloglines'
4733 - regex: 'heritrix'
4741 - regex: 'search\.marginalia\.nu'
4744   url: 'https://www.marginalia.nu/marginalia-search/for-webmasters/'
4749 - regex: 'vu-server-health-scanner'
4757 - regex: 'Functionize'
4765 - regex: 'Prerender'
4768   url: 'https://docs.prerender.io/docs/33-overview-of-prerender-crawlers'
4773 - regex: 'bl\.uk_ldfc_bot'
4781 - regex: 'Miniature\.io'
4789 - regex: 'Convertify'
4797 - regex: 'ZoteroTranslationServer'
4800   url: 'https://github.com/wikimedia/mediawiki-services-zotero'
4805 - regex: 'MuckRack'
4813 - regex: 'Golfe'
4816   url: 'http://www.goo-olfe.ae/bot.html'
4818 - regex: 'SpiderLing'
4826 - regex: 'Bravebot'
4829   url: 'https://search.brave.com/help/brave-search-crawler'
4834 - regex: '1001FirmsBot'
4839 - regex: 'SteamChatURLLookup'
4842   url: 'https://help.steampowered.com/en/faqs/view/595C-42F4-3B66-E02F'
4847 - regex: 'ohdear\.app'
4850   url: 'https://ohdear.app/docs/faq/what-is-the-oh-dear-crawler-doing-in-my-logs'
4855 - regex: 'Inspici'
4863 - regex: 'peer39_crawler'
4866   url: 'https://www.peer39.com/crawler-notice'
4871 - regex: 'Pandalytics'
4874   url: 'https://www.domainsbot.com/business-intelligence/'
4879 - regex: 'CloudServerMarketSpider'
4884 - regex: 'Pigafetta'
4887   url: 'https://visual-seo.com/Pigafetta-Bot'
4892 - regex: 'Cotoyogi'
4897     name: 'Joint Support-Center for Data Science Research (ROIS-DS)'
4900 - regex: 'SuggestBot'
4905 - regex: 'cms-experiment'
4908   url: 'https://securitee.org/cms-experiment-fall2024/'
4910 - regex: 'SiteCheckerBotCrawler'
4918 - regex: 'SBIder'
4926 - regex: 'LightspeedSystemsCrawler'
4934 - regex: 'Research JLU'
4937   url: 'https://www.uni-giessen.de/en/research'
4940     url: 'https://www.uni-giessen.de/en'
4942 - regex: '(?:hgf|OS)AlphaXCrawl'
4945   url: 'https://www.fim.uni-passau.de/en/data-science/research/open-search'
4948     url: 'https://www.uni-passau.de/en/'
4950 - regex: 'WPMU DEV'
4953 …url: 'https://wpmudev.com/docs/wpmu-dev-plugins/broken-link-checker/#broken-link-checker-user-agen…
4958 - regex: 'SnoopSecInspect'
4963 - regex: 'ModatScanner'
4971 - regex: 'researchcyber\.net'
4976 - regex: 'CrystalSemanticsBot'
4979   url: 'https://web.archive.org/web/20121230203310/http://www.crystalsemantics.com/user-agent/'
4984 - regex: 'najdu\.s\.holubem\.eu'
4989 - regex: 'VORTEX/'
4994 - regex: 'xtate/(\d+\.[.\d]+)'
4999 - regex: 'FediList Agent/'
5004 - regex: 'Grafana/(\d+\.[.\d]+)'
5012 - regex: 'github-camo'
5018 …l: 'https://docs.github.com/en/authentication/keeping-your-account-and-data-secure/about-anonymize…
5020 - regex: 'Bluesky'
5028 - regex: 'OpenGraph\.io'
5037 - regex: 'nuhk|grub-client|Download Demon|SearchExpress|Microsoft URL Control|borg|altavista|datami…
5041 - regex: '[a-z0-9_-]*(?:(?<!cu|power[ _]|m[ _])bot(?![ _]TAB|[ _]?5[0-9]|[ _]Senior|[ _]Junior)|ana…