云端部署指南:免费开源蓝天采集器使用教程

在当今互联网时代,数据已经成为推动业务发展的重要资产。对于企业和个人来说,如何高效地从网络上获取有价值的信息,成为了提升竞争力的关键因素之一。来看看这个免费开源蓝天采集器,云端部署采集器使用教程,作为一个成熟稳定的网页爬虫系统,正是为此而生。本文将为您详细介绍这款强大的数据采集工具。

关于蓝天采集器

蓝天采集器是一款采用PHP+MySQL技术栈开发的网页爬虫系统,经过六年的不断迭代优化,已经成长为一个既成熟又稳定的工具。它不仅能够部署在云端服务器上,也适用于各种虚拟主机环境,提供了可视化的操作界面,使得用户无需复杂的编程知识能够轻松完成数据采集任务。

数据采集功能

蓝天采集器的强大之处在于其高度灵活的数据采集能力。它支持无限制的多级、多页以及分页采集,并且能够通过RPA(Robotic Process Automation)流程来自动执行采集任务。用户可以自定义采集规则,利用正则表达式、XPath、JSON等多种方式精确匹配目标信息流。此外,该系统还具备模拟浏览器行为的功能,如点击、滚动等,从而能够捕获页面渲染后的动态内容。

这样的数据采集能力对于那些依赖大量训练数据的垂直领域大模型AIGC(Artificial Intelligence Generated Content)应用来说尤为重要,它可以帮助解决训练数据不足的问题,从而促进更高质量的内容生成。

内容发布与管理

采集到的数据如何有效地管理和利用也是关键所在。蓝天采集器提供了多种数据存储和发布选项,包括将数据保存为Excel文件、导入数据库或是发布到各种CMS(Content Management System)程序中。它还支持通过远程API发布数据,或者开发自定义的数据发布插件,甚至可以创建本地数据集对外提供数据接口服务。

这时候我还是要推荐一下API接口大全 在这个里面搜索采集 两个字,可以搜索到相关的采集接口,大家可以使用这个里面的采集接口来供使用,需要的来看看吧。

云部署与自动化

作为一款现代化的数据采集工具,蓝天采集器拥有良好的跨平台特性,可以在不同的操作系统环境中安装运行。无论是Windows、Linux还是Mac OS,都可以轻松部署。尤其值得一提的是,它能够在虚拟主机上运行良好,这对于资源有限的小型企业或个人用户而言是一大福音。

此外,蓝天采集器支持定时定量的自动化采集与发布,用户只需要简单的配置可以实现持续的数据采集工作,极大地提高了效率。

PHP版本要求

PHP5.4 至 PHP8.2

安装环境要求

操作系统:Linux/Windows/MacOS

软件环境:IIS/Apache/Nginx + MySQL 5.5 及以上

下载软件

当前版本:SkyCaiji V2.8   码云   Github   宝塔面板   站长下载   A5下载

升级软件

可直接在后台首页中检测更新后点击升级,或者将压缩包上传至服务器解压覆盖后登录后台首页点击升级数据库即可!

安装软件

将下载的软件上传至您的服务器(支持本地和云端),如果根目录有站点建议放在子目录里,解压后打开浏览器输入您的服务器域名或ip地址(存放在子目录则加上子目录的名称),进入安装界面

云端部署指南:免费开源蓝天采集器使用教程

点击“接受”,进入环境检测页面

云端部署指南:免费开源蓝天采集器使用教程

必须确保所有参数都正确,否则使用中会出现错误,点击“下一步”进入数据安装界面

云端部署指南:免费开源蓝天采集器使用教程

填写好数据库及创始人配置,点击“下一步”

云端部署指南:免费开源蓝天采集器使用教程

最后安装完成,现在可以使用蓝天采集器了!

创建任务

登录后台,左侧导航中点击“添加任务”

云端部署指南:免费开源蓝天采集器使用教程

添加任务页面

  • “导入任务”可以复制其他任务的所有设置(包括采集器设置、发布设置)
  • “导入规则”可以从其他任务或文件中复制采集器设置
  • “更多设置”可以为任务单独配置采集时的参数
  • “单页采集模式”允许通过访问接口方式传入网址参数采集单个页面

云端部署指南:免费开源蓝天采集器使用教程

采集器设置

点击任务底部进度条的“采集器设置”进入规则编辑界面

  • 输入采集规则名称(选填)/ 目标网站编码(可自动检测)/ 内容解析(可默认)
  • 页面渲染:自动加载出ajax内容,适用于js脚本较多的页面
  • 自动补全网址:将网页中的相对地址(不包含域名的网址)转为网址(包含域名)
  • 重复采集网址:默认会将采集过的内容页排重处理,允许重复采集适用于更新频繁的动态页面
  • 网址中文转码:网址中如果存在中文、特殊字符和空格会导致抓取失败,需要对中文、特殊字符和空格进行转码才能正常解析
  • 网址去除锚点:通常情况下网址中有锚点(#)和无锚点解析出的内容是相同的,为避免采集到重复内容可去除网址锚点
  • 网址采集顺序:可选择乱序、倒序、正常顺序采集内容页网址
  • 正则匹配模式:使用正则规则时的模式,默认情况下仅忽略大小写
  • 请求头信息:以适应需要登录的、手机浏览的等界面,可分别设置抓取页面和下载图片的请求头信息

云端部署指南:免费开源蓝天采集器使用教程

前置页网址(选填)

添加在起始页之前需要采集的页面,仅采集一次,可以用作模拟登录、获取全局数据等

云端部署指南:免费开源蓝天采集器使用教程

云端部署指南:免费开源蓝天采集器使用教程

起始页网址

添加需要采集的目标列表页作为抓取入口

点击“+”号可批量添加网址,勾选“起始页网址设置为内容页网址”可直接采集输入的网址,否则作为列表页需要进行分析提取出内容页网址

云端部署指南:免费开源蓝天采集器使用教程

多级页网址(选填)

从多层次的网址中抓取内容页网址,例如内容页网址不是直接从起始页抓取的,都可以通过多级来获取,适用于小说、影视等连载形式的页面

云端部署指南:免费开源蓝天采集器使用教程

云端部署指南:免费开源蓝天采集器使用教程

内容页网址

编写提取内容页网址的规则,默认提取所有网址,如需精准可设置“提取网址规则”

云端部署指南:免费开源蓝天采集器使用教程

关联页网址(选填)

适用于数据分散在多个页面中,如需抓取的字段不在内容页而在其他页面中,则可以使用该功能将其他页面也作为内容源

云端部署指南:免费开源蓝天采集器使用教程

云端部署指南:免费开源蓝天采集器使用教程

获取内容

“添加默认”可以自动设置几个常见的“字段”,能满足大部分文章类型的站点采集

如果目标数据格式比较复杂,可点击“+”自行编写字段规则

云端部署指南:免费开源蓝天采集器使用教程

数据来源:可选择前置页、起始页、多级页、内容页和关联页

获取方式:有规则匹配、xpath匹配、json提取、自动获取(标题、正文、keywords、description、页面网址、源码、头信息、cookie)、内容标签(调用页面规则中设置的提取内容标签)、数据生成(固定文字、随机数字、时间、随机抽取),还可以从已有字段中提取数据或将多个已有字段组合成新字段。

云端部署指南:免费开源蓝天采集器使用教程

数据处理”功能可将字段采集到的值进行加工,每个字段都可单独进行数据处理或者使用通用处理。

处理功能有:html标签过滤、截取字符串、插入内容、内容替换、批量替换、工具箱、翻译、关键词过滤、条件判断、使用函数、调用接口等。

“关键词过滤”和“条件判断”都可对字段进行筛选去除掉不需要的数据,“使用函数”和“调用接口”可以对字段扩展出更多的数据处理方法。

云端部署指南:免费开源蓝天采集器使用教程

如需抓取分页,点击开启“内容分页”并编写规则,程序会自动抓取每个分页中的字段内容

云端部署指南:免费开源蓝天采集器使用教程

测试规则

采集器配置完成后需点击保存按钮,刷新后可在底部看到测试按钮

测试列表页中抓取网址

云端部署指南:免费开源蓝天采集器使用教程

测试抓取字段

云端部署指南:免费开源蓝天采集器使用教程

测试抓取分页

云端部署指南:免费开源蓝天采集器使用教程

规则匹配

添加、编辑字段时使用规则匹配可精准获取目标页面的数据

云端部署指南:免费开源蓝天采集器使用教程

“规则”支持:(*)(通配符)、正则表达式,使用[内容](通用匹配)或捕获组(正则捕获组)将匹配的数据保存为标签,在“拼接内容”中引用[内容N]标签组成结果

[内容]和捕获组的区别:[内容]会自动转换成固定格式捕获组:(?<nr>.*?)
而捕获组:(?<nr>[\s\S]*?),可以编写任意正则表达式
[内容]适用于精准度不高的通用匹配,捕获组适用于精准匹配

默认为单个匹配,多个匹配可勾选“允许匹配多个元素”

示例

新闻为例,页面中有许多元素,而我们只需要标题和正文

云端部署指南:免费开源蓝天采集器使用教程

鼠标右键,查看页面源代码,使用键盘 CTRL+F 搜索标题,找到标题的位置

云端部署指南:免费开源蓝天采集器使用教程

即标题的规则为:<h1 class=”post_title”>[内容]</h1>

同理,找出正文所在位置

云端部署指南:免费开源蓝天采集器使用教程

正文处于标记的红框html代码之间

即正文的规则为:<div class=”post_body”>[内容]</div>\s+<!– 相关 –>

常见问题:

  • 匹配到多余的内容:规则要确保匹配的唯一性防止出现贪婪匹配,可以优先选择有id属性的标签!
  • 匹配到的内容在页面中显示会导致版面错乱:规则没有包含结束元素或包含了其他块的开始元素导致匹配的内容形成不了html闭合

规则匹配需要一些正则技术且编写时需仔细反复推敲,一个小细节可能导致匹配错误或匹配的结果不同

如您不熟悉正则或觉得正则比较繁琐,可以使用XPATH匹配(简单易上手,匹配的结果精准度高)

数据处理

可将字段的值进行处理得到最终结果

html标签过滤

云端部署指南:免费开源蓝天采集器使用教程

截取字符串

云端部署指南:免费开源蓝天采集器使用教程

插入内容

云端部署指南:免费开源蓝天采集器使用教程

内容替换

云端部署指南:免费开源蓝天采集器使用教程

批量替换

云端部署指南:免费开源蓝天采集器使用教程

工具箱

云端部署指南:免费开源蓝天采集器使用教程

禁止补全网址:可以保留源码中的网址格式
网址真实地址:将网址替换成重定向后的真实地址
提取音视频网址:从html中提取出音视频网址

本地化

云端部署指南:免费开源蓝天采集器使用教程

功能:将文本链接标记为图片、将文本链接标记为文件、不下载图片、下载文件

翻译

云端部署指南:免费开源蓝天采集器使用教程

关键词过滤

云端部署指南:免费开源蓝天采集器使用教程

条件判断

云端部署指南:免费开源蓝天采集器使用教程

使用函数

云端部署指南:免费开源蓝天采集器使用教程

调用接口

云端部署指南:免费开源蓝天采集器使用教程

接口地址、发送数据、请求头信息中可调用字段

模拟登录

当抓取需要登录的页面时,简单的方法是在浏览器中真实登录后将cookie复制到“采集器设置»请求头信息»抓取页面»Cookie”中,由于cookie通常会有时间限制很容易失效,需要经常复制新的cookie字符串

为解决这个问题,可以通过添加“采集器设置»起始页网址»前置页”来模拟登录

以官网登录界面为例:https://www.skycaiji.com/login

使用谷歌浏览器“检查”功能测试,输入账号密码点击登录,获取到表单数据:

云端部署指南:免费开源蓝天采集器使用教程

添加前置页,将“表单网址”复制到“前置页网址”中,开启“请求前置页网址”将请求方式设置为“post”,添加“发送数据”输入“表单数据”

云端部署指南:免费开源蓝天采集器使用教程

勾选“全局抓取页面时使用当前页COOKIE”,保存后在底部看到“测试抓取前置页”,点击测试查看前置页抓取结果

云端部署指南:免费开源蓝天采集器使用教程

复杂参数

以上示例比较简单,通常情况下会遇到动态参数、验证码等问题

动态参数:可以将动态参数所在页面添加为前置页,使用“提取内容标签”将动态参数抓取出来,然后在“登录”前置页的“发布数据”中添加参数,参数值调用刚才设置的内容标签

验证码:同理将验证码所在页面添加为前置页,使用“提取内容标签”将验证码的链接抓取出来,然后使用函数,在函数中进行识别操作(由于验证码识别技术非常复杂官方无法提供支持,建议在函数中调用第三方api接口来实现)

发布设置

点击任务底部进度条的“发布设置”,选择发布方式

数据集

将采集到的数据导入到数据集中,数据集中的数据可以通过api接口方式访问

云端部署指南:免费开源蓝天采集器使用教程

本地cms程序

可自动检测出服务器中的CMS程序,实现蓝天采集器和cms无缝对接

云端部署指南:免费开源蓝天采集器使用教程

简单绑定对应的数据,不用登录即可入库,你还可以自行开发cms插件,理论上可实现任何CMS的任意入库操作

云端部署指南:免费开源蓝天采集器使用教程

数据库

直接将数据入库,配置好数据库参数点击“数据表”

云端部署指南:免费开源蓝天采集器使用教程

数据表操作支持新增、更新和查询,绑定数据可调用采集字段、查询和自增主键

云端部署指南:免费开源蓝天采集器使用教程

存储为文件

支持Excel表格(xlsx或xls格式)、txt文本
文件最大行数:达到行数自动创建新文件
隐藏采集字段:可设置不写入文件的字段

云端部署指南:免费开源蓝天采集器使用教程

生成api接口

可直接调用采集到的数据

云端部署指南:免费开源蓝天采集器使用教程

调用接口

只要有相应cms的入库接口,可以将数据远程发布到网站中,不必将采集器和网站放在同一服务器

云端部署指南:免费开源蓝天采集器使用教程

当数据发送至远程接口并入库后需要返回响应状态,这样采集器才能正确记录数据的状态并用来进行排重处理

你只需要在接口代码最后或者数据入库后插入代码

exit(json_encode(数组));//数组必须是键值对形式,在调用接口»响应状态中绑定数组中的键名即可

查看发布调用接口详细说明

自定义插件

适用于任何网站程序,按要求创建插件文件并编写代码即可

云端部署指南:免费开源蓝天采集器使用教程

数据集

数据集:在本地数据库中创建表用来存储多种类型的数据(数字、小数、字符串、文本、时间等),多个任务可将采集的数据发布至同一个数据集中

添加字段,字段名称可输入中文或英文

云端部署指南:免费开源蓝天采集器使用教程

添加后点击保存,在底部可以设置索引

云端部署指南:免费开源蓝天采集器使用教程

合理设置索引可以提升数据查询的速度,可以添加多个字段为联合索引

云端部署指南:免费开源蓝天采集器使用教程

发布到数据集

在“任务»发布设置”中选择数据集,可选择已有数据集或者自动生成数据集

云端部署指南:免费开源蓝天采集器使用教程

数据接口

可绑定数据集生成api接口供第三方调用

输入一个名称,状态设为开启,接口配置可默认

云端部署指南:免费开源蓝天采集器使用教程

选择一个数据集后添加数据查询条件,可以添加多个条件或条件组(条件中添加子条件)

云端部署指南:免费开源蓝天采集器使用教程

保存后在底部可看到接口使用方法

云端部署指南:免费开源蓝天采集器使用教程

发送数据只要满足其中一组条件可以执行数据查询,like条件和数据库操作一样“%字符串%”,图中条件如下:

http://localhost/skycaiji/index.php?s=/api/data/2&id=数字
或者 http://localhost/skycaiji/index.php?s=/api/data/2&c5444=%字符串%&c9ee8=%字符串%
或者 http://localhost/skycaiji/index.php?s=/api/data/2&c9ee8=%字符串%

总的来说,蓝天采集器以其强大的数据采集能力、灵活的内容发布选项以及简便的操作方式,成为了一个不可或缺的数据采集解决方案。无论您是在寻找一种工具来支持您的数据分析工作,还是希望为自己的AI提供充足的训练材料,蓝天采集器都是一个值得考虑的选择。

给TA打赏
共{{data.count}}人
人已打赏
未分类

联合对抗社工钓鱼攻击的技战术解析

2025-5-15 17:05:44

未分类

Stripe身份验证API功能详解与使用场景

2025-5-15 17:05:50

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索