首页 程序笔记 开源高性能.NET爬虫框架Abot用法示例

开源高性能.NET爬虫框架Abot用法示例

Abot简介

Abot 是一个开源的 C# 网络爬虫框架,它的特点是速度快和灵活。 它负责低级管道(多线程、http 请求、调度、链接解析等)。开发者只需要注册事件即可处理页面数据。

功能特性

免费开源 轻量级,速度快 支持定制 无依赖

Abot用法示例

使用 Nuget 安装 Abot

PM> Install-Package Abot

下面是一些Abot代码示例

private static async Task DemoSimpleCrawler()
{
var config = new CrawlConfiguration
 {
// 爬取 10 页
 MaxPagesToCrawl = 10, 
// 延迟 3 秒
 MinCrawlDelayPerDomainMilliSeconds = 3000
 };
var crawler = new PoliteWebCrawler(config);

// 监听记录日志
 crawler.PageCrawlCompleted += PageCrawlCompleted;// 

var crawlResult = await crawler.CrawlAsync(new Uri("https://google.com"));
}

private static async Task DemoSinglePageRequest()
{
var pageRequester = new PageRequester(new CrawlConfiguration(), new WebContentExtractor());

var crawledPage = await pageRequester.MakeRequestAsync(new Uri("http://google.com"));
 Log.Logger.Information("{result}", new
 {
 url = crawledPage.Uri,
 status = Convert.ToInt32(crawledPage.HttpResponseMessage.StatusCode)
 });
}

全局配置

Abot 的 Abot2.Poco.CrawlConfiguration 类有大量的配置选项, 你可以根据自己的需要进行配置。

var crawlConfig = new CrawlConfiguration();
crawlConfig.CrawlTimeoutSeconds = 100;
crawlConfig.MaxConcurrentThreads = 10;
crawlConfig.MaxPagesToCrawl = 1000;
crawlConfig.UserAgentString = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36";
crawlConfig.ConfigurationExtensions.Add("SomeCustomConfigValue1", "1111");
crawlConfig.ConfigurationExtensions.Add("SomeCustomConfigValue2", "2222");
etc...

注册事件

你可以注册 Abot的执行事件,来查看爬虫执行的每一个步骤。

crawler.PageCrawlStarting += crawler_ProcessPageCrawlStarting;
crawler.PageCrawlCompleted += crawler_ProcessPageCrawlCompleted;
crawler.PageCrawlDisallowed += crawler_PageCrawlDisallowed;
crawler.PageLinksCrawlDisallowed += crawler_PageLinksCrawlDisallowed;

Abot GitHub地址

https://github.com/sjdirect/abot

4

站星网

Abot简介 Abot 是一个开源的 C# 网络爬虫框架,它的特点是速度快和灵活。 它负责低级管道(多线程、http 请..

为您推荐

.NET Core 中替代 System.Drawing 的图像处理库:ImageSharp、SkiaSharp、Magick.NET 等对比分析

随着 .NET Core / .NET 6+ 平台对跨平台支持的加强,以及 System.Drawing.Common 在非 Windows 平台上的限制日益凸显,越来越多的开发者需要寻找合适的替代方案。微软从 .NET 6 起明确指出,System.Drawing.Common ..

OpenStock:开源免费股票市场追踪平台及其安装使用指南

什么是 OpenStockOpenStock 是由 Open Dev Society 社区发起与维护的一个开源项目,其目标是为开发者与普通用户提供一个无须付费即可访问、部署与扩展的股票市场观察平台。它可以作为一种“自行托管”的替..

如何显著提升 .NET 应用的启动速度:实用技巧与最佳实践

在现代软件环境下,用户对应用启动速度的容忍度非常低——启动过程若太慢,就可能损失首次体验和用户留存。对于 .NET 应用(包括 ASP.NET Core、桌面应用、服务程序等),启动性能优化是一项必须重视的工..

Blazor 与传统 MVC 对比详解:如何为你的 .NET 项目选择合适框架

在 .NET 世界里,Web 应用长期以来主要依靠 MVC(Model-View-Controller) 架构加上 Razor 视图渲染。但近年来随着前端交互需求增强、单页应用(SPA)趋势普及,微软推出 Blazor(支持在浏览器运行 C#)为 .NET 开发..

深入解析 PixiEditor:开源 2D 图形编辑器的功能与使用教程

随着数字绘画、像素艺术和游戏美术需求的提升,越来越多创作者希望使用免费、开源且功能强大的工具来进行创作。PixiEditor 就是一款旨在满足多种 2D 创作场景的开源图形编辑器,它不仅支持像素艺术(pixel art),还..

.NET Web API 文档库全对比:Swagger、NSwag、Scalar 选哪个?

在 .NET 生态中,Web API 已成为主流后端服务形式。对于 API 项目而言,良好的文档不仅能提升开发效率、易用性,还能支撑客户端、第三方接入、测试、运维、协作等环节。近年来,除了传统的 Swagger / Swashbuckle,..

2025 年最受欢迎的开源富文本编辑器推荐:功能强大、易于集成的选择

在现代 Web 开发中,富文本编辑器是构建内容管理系统、博客平台、在线文档和评论系统等应用程序的关键组件。选择合适的富文本编辑器可以提高开发效率,提升用户体验。本文将介绍五款在 2025 年备受推崇的开源富文本..

SemrushBot 是什么?了解其作用及是否需要屏蔽的全面指南

在网站管理和搜索引擎优化(SEO)领域,了解各种网络爬虫的作用至关重要。其中,SemrushBot 是由知名 SEO 工具平台 SEMrush 推出的网络爬虫,其主要功能是自动发现和收集互联网上的新网页数据,以供 SEMrush 的各种 ..

如何使用 .NET 与 C# 利用 FluentFTP 库实现可靠的 FTP 文件传输

在许多企业系统与网络应用中,FTP(File Transfer Protocol)或 FTPS(FTP over SSL/TLS)仍然是文件传输的常见方案。使用标准的 FTP 客户端类固然可行,但在可靠性、可维护性与功能性上往往难以满足复杂需求。Fluen..

2025 年最新 .NET Redis 客户端库对比测评:性能、功能与适用场景解析

随着 .NET 应用对高性能分布式缓存与消息通讯需求不断提升,Redis 成为后端架构中的关键组件之一。然而,如何在 .NET 生态选择合适的 Redis 客户端库,却是一项需要深入考量的问题。本文从性能、功能扩展、安全许可..

.NET 中用 C# 构建布隆过滤器(Bloom Filter)实战教程

布隆过滤器是一种空间高效的概率型数据结构,常用于快速判断某元素绝对不存在,从而优化缓存、防止缓存穿透或数据库重复查询场景。尤其在 .NET 系统中,它能显著减少数据库或其他后端服务的压力。.NET 上常用的布隆..

.NET中全新的MongoDb ORM框架 - SqlSugar

.NET中好用的MongoDb ORM很少,选择也很少,所以我打造了一款适合SQL习惯的MongoDb ORM,让用户多一个选择。1、 MongoDB ORM教程1.1 NUGET 安装SqlSugar.MongoDbCoreSqlSugarCore1.2 已支持功能单表CRUD+分页+排序+..

.NET 10 C# 14 必知的 6 大语法糖:提升开发效率,简洁优雅

.NET 10(搭配 C# 14)正式上线,带来一批令人惊喜的语法糖改进,让日常开发变得更加简洁、高效。无论你是编写企业级系统、构建性能敏感型组件,还是编写一次性脚本,这些新语法糖都能让你的代码更具可读性、减少..

2025年最佳.NET C#实现PDF转Word:主流库功能与对比

在日常工作中,将 PDF 文件高质量地转换为 Word 文档已成为许多企业和办公人员的常见需求,尤其是在文档归档、编辑流程自动化和办公系统集成等场景中尤为重要。对于使用 .NET 平台,特别是 C# 的开发者来说,选择一..

.NET Core 图像处理:Magick.NET 与 SkiaSharp 的全面对比

随着 .NET Core 的发展,传统的 System.Drawing 库因其对 Windows 的依赖性和在跨平台应用中的限制,逐渐被其他图像处理库所取代。在众多替代方案中,Magick.NET 和 SkiaSharp 是最受欢迎的两个选择。本文将从多个维..

使用.NET C#将图片转换为.ico图标文件的多种方法

在Windows应用程序开发中,图标(.ico)文件是不可或缺的一部分。本文将介绍如何使用.NET C#将常见的图片格式(如PNG、JPG、BMP)转换为.ico文件,并提供多种实现方式,包括使用System.Drawing、Magick.NET库的方法..

RevokeMsgPatcher:.NET开源、免费的Windows下PC版微信/QQ/TIM的防撤回补丁

今天给大家分享一款基于 .NET 开源、免费的适用于 Windows 下 PC 版微信/QQ/TIM的防撤回补丁(我已经看到了,撤回也没用了),通用的微信多开工具:RevokeMsgPatcher。RevokeMsgPatcher GitHub地址:https://github...

RabbitMQ 4.0+重大更新!.NET(C#)开发者必须掌握的6大升级要点

RabbitMQ 作为一款广受欢迎的消息队列中间件,近年来从 3.x 版本升级到 4.0+,带来了显著的功能增强和架构调整。与此同时,其官方 C# 客户端也从 6.x 版本跃升至 7.0,引入了全新的编程模型和性能优化。这些变化不仅..

Paylinks:基于现代 .NET 的跨平台第三方支付 SDK 详解与使用示例

Paylinks 是一套基于现代 .NET 开发的,支持跨平台、多商户的第三方支付SDK。该项目旨在简化开发者接入第三方支付平台的过程,特别是针对支付宝和微信支付,便于快速集成支付功能。Paylinks 提供了丰富的配置选项和..

.NET 使用 Qdrant.Client 连接向量数据库 Qdrant 的完整指南

随着向量数据库在 AI、搜索、推荐系统等领域的广泛应用,越来越多的开发者开始将 Qdrant 集成到自己的项目中。对于 .NET 开发者而言,使用 Qdrant.Client 实现与 Qdrant 的高效连接和数据操作,是构建语义搜索和嵌入..

发表回复

返回顶部

微信分享

微信分享二维码

扫描二维码分享到微信或朋友圈

链接已复制
蜂鸟影院2048影视资源论坛熊猫影视河马影视星辰影视萝卜影院八哥电影网人人看电影无忧影视网橙子影视网叮当影视网天天影视网青青影视网电影天堂开心追剧网西瓜影院麻花影视网70影视网年钻网茶小舍电影藏影堂新神州影域煮酒观影体积影视爱看影院星光电影至尊影院极影公社超清视界