首页 程序笔记 Crawlee 下一代网络爬虫与浏览器自动化工具

Crawlee 下一代网络爬虫与浏览器自动化工具

在数字化时代,数据是企业决策和创新的基石。网络爬虫作为获取数据的重要工具,其重要性不言而喻。今天,我们将深入探讨Crawlee,一个为Node.js环境设计的先进网络爬虫和浏览器自动化库,它如何帮助开发者构建快速、可靠且易于维护的爬虫。

Crawlee简介

Crawlee是由Apify团队开发的一个开源项目,旨在提供一个强大、灵活且易于使用的网络爬虫框架。它支持JavaScript和TypeScript,使得开发者可以使用他们熟悉的语言来构建爬虫。

Crawlee官网地址:https://crawlee.dev/

Crawlee的主要特性

多语言支持:Crawlee支持JavaScript和TypeScript,提供IDE中的代码补全功能。

无头浏览器集成:Crawlee建立在Puppeteer和Playwright之上,允许开发者轻松切换到无头浏览器进行数据抓取。

智能代理轮换:通过智能轮换代理,Crawlee帮助开发者绕过网站的反爬虫机制。

数据提取与存储:Crawlee提供了方便的数据提取和存储机制,支持将结果保存为JSON、CSV等格式。

社区支持:Crawlee拥有活跃的社区,开发者可以在Discord上与其他用户交流和分享经验。

快速上手

Crawlee提供了CLI工具,使得开发者可以快速开始一个新项目。以下是使用Crawlee CLI创建新项目的步骤:

安装Crawlee CLI:

npm install -g @crawlee/cli

创建新项目

crawlee create my-crawler

案例演示

将Crawlee添加到我们现有的项目中的时候,我们需要安装Playwright。它没有与 Crawlee 捆绑在一起,因为它的体积过大。

npm install crawlee playwright

Crawlee示例代码

import { PlaywrightCrawler } from 'crawlee';

// PlaywrightCrawler crawls the web using a headless browser controlled by the Playwright library.
const crawler = new PlaywrightCrawler({
    // Use the requestHandler to process each of the crawled pages.
    async requestHandler({ request, page, enqueueLinks, pushData, log }) {
        const title = await page.title();
        log.info(`Title of ${request.loadedUrl} is '${title}'`);

        // Save results as JSON to `./storage/datasets/default` directory.
        await pushData({ title, url: request.loadedUrl });

        // Extract links from the current page and add them to the crawling queue.
        await enqueueLinks();
    },

    // Uncomment this option to see the browser window.
    // headless: false,

    // Comment this option to scrape the full website.
    maxRequestsPerCrawl: 20,
});

// Add first URL to the queue and start the crawl.
await crawler.run(['https://crawlee.dev']);

// Export the whole dataset to a single file in `./result.csv`.
await crawler.exportData('./result.csv');

// Or work with the data directly.
const data = await crawler.getData();
console.table(data.items);

Crawlee架构

Crawlee的架构设计考虑了扩展性和灵活性,允许开发者根据自己的需求定制爬虫。以下是Crawlee的一些核心组件:

Crawler:爬虫的基类,提供了基本的爬取逻辑。

Request:表示单个HTTP请求,可以包含URL、方法、头信息等。

RequestList:管理爬虫将要处理的请求队列。

RequestHandler:处理每个请求的逻辑,可以在这里编写数据提取和页面操作的代码。

Crawlee的使用场景

Crawlee可以应用于多种场景,包括但不限于:

市场调研:自动收集竞争对手的价格和产品信息。

社交媒体分析:抓取社交媒体平台上的数据,进行情感分析或趋势研究。

价格监控:监控特定商品的价格变动,及时获取价格下降的通知。

数据聚合:从多个网站收集数据,构建自己的数据集。

Crawlee部署与扩展

Crawlee可以部署在本地环境,也可以部署到云端。Apify平台提供了便捷的部署选项,允许开发者将Crawlee项目转换为Actor,享受云存储、代理和计算资源。

Crawlee作为一个现代化的网络爬虫工具,为开发者提供了强大的功能和灵活性。无论您是数据科学家、开发人员还是业务分析师,Crawlee都能帮助您高效地获取和处理网络数据。值得注意的是,Crawlee除了JavaScript版本之外,还有一个python版本的,如果你熟悉python,或者习惯python代码,那么你可以选择python版本的Crawlee。

1

站星网

在数字化时代,数据是企业决策和创新的基石。网络爬虫作为获取数据的重要工具,其重要性不言而喻。今天,我..

为您推荐

AI 浏览器大比拼:Comet vs Atlas 深度测评

近几年,“AI 浏览器”开始成为市场热点。不同于传统浏览器只是用来浏览网页、管理标签页,AI 浏览器整合了大语言模型、智能搜索、自动化任务等功能,旨在提升“浏览即生产力”的体验。在这一浪..

ChatGPT Atlas:OpenAI 推出 AI 驱动浏览器 开启全新智能上网体验

ChatGPT Atlas:AI 浏览器新纪元,开启共同行动的未来当地时间 10 月 21 日,OpenAI 正式宣布推出其首款 AI 驱动的网页浏览器——ChatGPT Atlas。这一举措标志着人工智能巨头对传统互联网入口发起了正面挑..

Comet 官网:Perplexity 免费开放 AI 驱动浏览器使用指南

在 AI 助手与智能搜索迅速渗透互联网的时代,浏览器正在从“展示网页”的工具,逐渐演变为带有智能 “代理/助理” 能力的平台。近日,Perplexity 宣布其 AI 浏览器 Comet(原本只限部分用户使用..

Comet AI 浏览器全面免费开放:重塑全球网际体验的新时代

近年来,AI 技术正在深度重塑互联网体验。作为 Perplexity 旗下的 AI 浏览器,Comet 现已向全球所有用户免费开放,这意味着每个人都能免费体验其集成的智能助手与搜索能力。Comet 不再只是传统浏览器的扩展,而是一..

《独立开发者精选工具》第 018 期

IndieTools 是一个专为独立开发者打造的精选工具和资源平台。通过直观的分类,轻松找到 Web 开发、设计、营销、SEO 等全流程实用工具。让你快速找到所需,专注于创造产品。独立开发者必备网站:https://www.indietoo..

SemrushBot 是什么?了解其作用及是否需要屏蔽的全面指南

在网站管理和搜索引擎优化(SEO)领域,了解各种网络爬虫的作用至关重要。其中,SemrushBot 是由知名 SEO 工具平台 SEMrush 推出的网络爬虫,其主要功能是自动发现和收集互联网上的新网页数据,以供 SEMrush 的各种 ..

2025年推荐6个好用的 Postman 替代工具

在软件开发和API测试领域,Postman无疑是使用最广泛的工具之一。它凭借直观的界面、强大的功能以及丰富的社区支持,多年来一直备受欢迎。然而,随着技术的发展和用户需求的多样化,Postman也暴露出一些不足,比如性..

7日GMV超480万,这一冷门工具在TikTok上赚翻了

来源:TT123跨境电商作者:TT123跨境电商近几年,在跨境电商市场,汽配类产品总是能给人带来意想不到的惊喜,尤其是在北美地区。超过3.67 亿的汽车保有量,让北美成为全球最大的汽车用品需求市场。无论是常年霸屏热..

使用 ua-parser-js 获取用户的浏览器、操作系统、设备类型等信息

什么是 ua-parser-js?ua-parser-js 是一个轻量级的 JavaScript 库,旨在解析用户代理(User-Agent)字符串,从中提取出浏览器、操作系统、设备类型、CPU 架构等信息。它支持在浏览器(客户端)和 Node.js(服务端)..

Dia AI 浏览器全面介绍:2025 年最值得关注的智能浏览器

在人工智能日益融入日常生活的今天,浏览器作为我们接触互联网的主要工具,也在发生着深刻的变革。由 Arc 浏览器开发团队 The Browser Company 推出的全新 AI 浏览器——Dia,正是这一变革的代表。Dia 不..

沃尔玛AI工具投用,年销20亿品牌首吃螃蟹

来源:兔克出海作者:兔克出海近期,全球零售巨头沃尔玛公布了一项颠覆性技术创新,其耗时 18 个月自主研发的生成式 AI 工具“Trend-to-Product”(趋势到产品)正式投入应用。这款聚焦服装产业的技术利器,通过实时..

新版彩虹工具网源码v1.9.0更新

新版彩虹工具网采用ThinkPHP6.0开发,自带70多个工具,包含站长工具、开发工具、实用工具、娱乐工具等分类,支持工具插件扩展,支持留言、用户注册登录、后台管理功能。目前已经更新到了1.9版本,新增了QQ等级查询、..

禁止的垃圾蜘蛛,网站优化加速屏蔽国外垃圾无用蜘蛛,防止抓取导致带宽占用!

常见的网络恶意垃圾爬虫蜘蛛1、MJ12BotMJ12Bot 是英国著名SEO公司Majestic的网络爬虫,其抓取网页给需要做SEO的人用,不会给网站带来流量。2、AhrefsBotAhrefsBot 是知名SEO公司Ahrefs的网页爬虫。其同样抓取网页给S..

从0到1,网络互助起航式

随着移动互联网的快速发展,网络互助的模式已经进入起步状态,未来,网络互助行业前景一片大好。在距今2000余年前的古罗马时期,由于连年征战,士兵们大量死伤导致家中妻女无人依靠。于是,这些争战沙场的士兵们联合..

2025年最受欢迎浏览器排行榜

根据2025年的用户数据和各大评测机构的分析,以下是最受欢迎的浏览器排行榜:谷歌Chrome:凭借其高效的渲染引擎、丰富的插件支持以及与谷歌生态系统的深度整合,Chrome继续稳居市场首位。谷歌Chrome官网下载地址:ht..

10款.NET开发中推荐的代码分析和质量工具

以下是10款.NET开发中常用的代码分析和质量工具列表,以及它们的主要功能和使用场景:1. SonarQube简介:一个流行的开源静态代码分析平台,用于检测代码中的漏洞、错误、技术债务等问题。主要功能:支持代码质量监测..

Tesseractjs 前端OCR识别提取图像文本字符工具 支持 100+ 种语言

Tesseract.js 简介Tesseract.js 是一个基于 Tesseract OCR 引擎的开源 JavaScript 库,用于在浏览器和 Node.js 环境中执行光学字符识别 (OCR)。它的特点是无需依赖服务器端支持,完全在客户端执行 OCR 操作。Tessera..

微软发布VS Code AI工具包,集成多模型AI能力

微软发布了VS Code AI工具包,增强了代码编辑器的AI功能!微软推出了VS Code AI工具包,这是一个全新的扩展,旨在将AI功能集成到Visual Studio Code中。该工具包支持多种AI模型,包括本地和远程模型,用户可以配置自..

chrome 开发者工具如何查看元素:hover时的样式

在 Chrome 开发者工具中查看元素的 :hover 样式,可以通过以下步骤实现:打开开发者工具:右键点击页面中的元素,然后选择“检查(Inspect)”或按下 F12 或 Ctrl + Shift + I (Windows) / Cmd + Option +..

ideogram.ai 人工智能AI图片生成工具网站

Ideogram是一个由前Google Brain员工创立的AI绘画工具,它能够根据文本生成各种风格的图像,尤其擅长准确生成文本内容和抽象图标。Ideogram官网地址:https://ideogram.ai/loginIdeogram是由前Google Brain员工在202..

发表回复

返回顶部

微信分享

微信分享二维码

扫描二维码分享到微信或朋友圈

链接已复制
蜂鸟影院2048影视资源论坛熊猫影视河马影视星辰影视萝卜影院八哥电影网人人看电影无忧影视网橙子影视网叮当影视网天天影视网青青影视网电影天堂开心追剧网西瓜影院麻花影视网70影视网年钻网茶小舍电影藏影堂新神州影域煮酒观影体积影视爱看影院星光电影至尊影院极影公社超清视界