首页 程序笔记 通过Linux命令分析Nginx日志得知百度蜘蛛的爬行情况

通过Linux命令分析Nginx日志得知百度蜘蛛的爬行情况

前言

做网站的目的就是将自己的信息展示给目标用户,最直接的就是通过搜索引擎搜索展示。针对搜索引擎也需要优化,也就是我们说的SEO优化,新站长可能会特别关注蜘蛛爬行的次数、频率等,而做好网站SEO优化的第一步就是让搜索引擎蜘蛛爬虫经常来光顾你的网站,如果蜘蛛爬行出现异常怎么办?下面已Linux系统为例,结合几个 Linux 命令,如 cat 命令 \grep 命令 \awk 命令等可以让你清楚的知道蜘蛛的爬行情况。

下面我们以nginx 服务器为例进行分析,nginx的日志文件所在目录一般是:/usr/local/nginx/logs/access.log,这个路径根据自己网站的配置可能不一样,access.log 这个文件记录的应该是最近几天的日志情况(和网站配置的日志记录时间有关),首先请看看日志文件的大小,如果很大 (如超过 30MB) 建议别用这些命令在服务上分析,因为这些命令很消耗 CPU。建议下载下来放到本地的Linux系统上执行分析命令,以免影响网站的访问速度。
以下先以百度蜘蛛爬行统计分析为例。

相关Shell命令

百度蜘蛛爬行的次数统计

cat access.log | grep Baiduspider | wc

百度蜘蛛的详细记录

分析过程中如果执行时间较长,Ctrl+C 可以提前终止

cat access.log | grep Baiduspider

也可以用下面的命令:

cat access.log | grep Baiduspider | tail -n 10
cat access.log | grep Baiduspider | head -n 10

只看最后 10 条或最前 10 条,这用就能知道这个日志文件的开始记录的时间和日期。

百度蜘蛛抓取首页的详细记录

cat access.log | grep Baiduspider | grep GET / HTTP

百度蜘蛛好像对首页非常热爱每个钟头都来光顾,而谷歌和雅虎蜘蛛更喜欢内页。

百度蜘蛛派性记录时间点分布

cat access.log | grep Baiduspider | awk {print $4}

百度蜘蛛爬行页面按次数降序列表

cat access.log | grep Baiduspider | awk {print $7} | sort | uniq -c | sort -r

文中的 Baiduspider 改成其它蜘蛛名称,例如改成 Googlebot 就可以查看谷歌的数据。国内的搜索引擎,百度占了大半壁江山,所以主要以百度蜘蛛的爬行日志为主。

3

站心网

前言 做网站的目的就是将自己的信息展示给目标用户,最直接的就是通过搜索引擎搜索展示。针对搜索引擎也需..

为您推荐

搜索引擎蜘蛛IP地址大全

搜索引擎ASN数据iP段iP归属地Spider & Robot UserAgent相关资料百度 baidu.comAS4808AS4808AS4808AS55967AS23724AS23724AS23724AS4134AS4837AS4837AS13770261.135.0.0/16123.125.0.0/16111.206.0.0/16180.76.0.0/201..

禁止的垃圾蜘蛛,网站优化加速屏蔽国外垃圾无用蜘蛛,防止抓取导致带宽占用!

常见的网络恶意垃圾爬虫蜘蛛1、MJ12BotMJ12Bot 是英国著名SEO公司Majestic的网络爬虫,其抓取网页给需要做SEO的人用,不会给网站带来流量。2、AhrefsBotAhrefsBot 是知名SEO公司Ahrefs的网页爬虫。其同样抓取网页给S..

宝塔Nginx服务器User-Agent过滤器

这些正则表达式规则主要用于Web服务器或安全系统(如WAF)的User-Agent过滤,旨在识别并拦截自动化工具、恶意爬虫、漏洞扫描器等非人类流量,从而提升网站安全性和资源保护。以下是分点总结:‌核心作用‌‌安全防护..

宝塔Nginx配置图片404处理方法

在宝塔面板中配置Nginx,使其在访问图片不存在时显示指定内容或返回自定义404页面,可以通过以下步骤实现:方法一:显示指定内容登录宝塔面板,进入网站管理页面。选择网站,点击需要配置的网站右侧的“设置”按钮。..

如何选择更适合你的 Linux 发行版?

很多人经常会问我这样一个问题:“嘿,你是用Linux的,对吧?我应该使用Linux的哪个版本?我有这个朋友推荐我_____,你觉得怎么样?”我通常会以这样的问题回复:这取决于你想做什么?今天我决定写一篇关于如何选择L..

7大Git实用技巧和命令总结

Git 是一个非常强大的工具,它包含丰富的工具用以维护项目。本文介绍了一些 Git 日常使用过程中的实用技巧和命令,希望这些内容能够对大家有所帮助。Git diff通常情况下,我们会在自己的独立分支中完成需求开发,此..

一个简单的 C# 异步日志记录器

Clearcove.Logging是一个非常简单的日志库,旨在通过直接许可条款满足大多数日志记录需求。介绍我知道你在想什么——代码世界真的需要另一个日志库吗?如果你在.NET中寻找一个日志库,那么你有很多选择。有NLog,Log..

VS创建.NET Core项目使用Docker方式部署到Linux服务器

在 Visual Studio(VS) 中,使用 Docker 方式部署 .NET Core 项目 到 Linux 服务器,可以简化环境管理并提高部署效率。以下是完整教程:1. 在 VS 创建 .NET Core 项目并启用 Docker新建 ASP.NET Core 项目打开 Visu..

.net 通过 HttpClient 下载文件同时报告进度的方法

通过 HttpClient 的 ContentLength 很多时候都可以拿到下载的内容的长度,通过 ReadAsync 可以返回当前读到的长度,将读取到的长度加起来就是已经下载的长度看起来很简单,于是直接给代码private static async Task ..

MySQL批量插入的分析

1、背景我们在工作中基本都会碰到批量插入数据到DB的情况,这个时候我们就需要根据不同的情况选择不同的策略。只要了解sql,就应该知道,向table中插入数据的命令,至少有insert和replace这两种,使用哪一种命令,和..

10款.NET开发中推荐的代码分析和质量工具

以下是10款.NET开发中常用的代码分析和质量工具列表,以及它们的主要功能和使用场景:1. SonarQube简介:一个流行的开源静态代码分析平台,用于检测代码中的漏洞、错误、技术债务等问题。主要功能:支持代码质量监测..

Git 常用命令总结

基础命令初始化一个Git仓库:git init添加到暂存区:git add <file>提交到本地仓库:git commit -m <message>仓库版本号切换:git reset --hard commit_id查看提交历史:git log查看历史命令:git reflog丢弃工作区..

通过js修改tinymce的编辑器的内容

在网页开发中,TinyMCE是一个流行的富文本编辑器。它允许用户轻松地创建和编辑HTML内容,而无需直接操作代码。然而,有时我们可能需要通过JavaScript来动态修改编辑器中的内容。本文将介绍如何使用JavaScript来修改T..

Git 常用命令

仓库# 在当前目录新建一个Git代码库$ git init# 新建一个目录,将其初始化为Git代码库$ git init [project-name]# 下载一个项目和它的整个代码历史$ git clone [url]配置# 显示当前的Git配置$ git config --list# 编..

.NET Core 日志配置,NLog配置示例

.NET Core内置的日志组件附带了以堆日志提供程序,输出到控制台,输出,系统事件。在Program.cs组件配置里可以配置,如下。Console和Debug是默认配置。publicstaticIHostBuilderCreateHostBuilder(string[]args)=>Ho..

CentOS7部署发布.NET Core网站Ngnix安装配置图文教程

Linux服务器部署.NET Core网站运行速度更快,最近打算把原来windows server上的网站迁到linux的云服务器上。 顺便记录一下CentOS7安装.NET运行环境,安装和配置Ngnix的过程。首先安装.NET运行时sudorpm-Uvhhttps://p..

.NET Core记录请求处理时间的中间件

以下是一个示例的 .NET Core 中间件,用于记录请求处理时间的情况:using Microsoft.AspNetCore.Http;using Microsoft.Extensions.Logging;using System;using System.Diagnostics;using System.Threading.Tasks;pub..

Kubernetes(k8s) Linux安装和配置

什么是Kubernetes(k8s)?Kubernetes(通常称为"k8s")是一种用于自动部署、扩展和管理容器化应用程序的开源平台。它提供了一个容器编排和管理系统,可以自动化应用程序的部署、管理和缩放,并确保它们的高可用性。在..

程序员开发人员常用工具和网站

给大家分享一些程序员开发人员常用工具和网站,我相信这里总有一款工具适合你。排名不分先后~Visual Studio CodeVisual Studio Code官网地址:https://code.visualstudio.com/Visual Studio Code重新定义和优化了代..

类似sms-activate的国外手机验证码接码平台

很多网站需要通过手机验证码才能注册成功,例如最近大火的ChatGPT的官网OpenAI只能使用国外手机号注册。这里推荐几个可以接收国外手机验证码的平台。sms-activatehttps://sms-activate.org/cn站点推荐:ChatGPT手机..

发表回复

返回顶部

微信分享

微信分享二维码

扫描二维码分享到微信或朋友圈

链接已复制