「网页爬虫|它能在当前浏览器页面中注入一个可视化工具窗口,让你告别繁琐的代码,直接通过“点选”的方式定义抓取规则。它专注于解决列表型数据(如商品列表、新闻列表、论坛帖子等)的抓取难题,能将属于同一条目的分散数据智能地组织成结构化记录,并支持灵活的数据提取和一键导出 CSV 文件」
简介

解决的问题
- 无需编程知识:传统网页数据抓取需要编写代码或使用复杂工具,本动作让普通用户也能轻松抓取数据
- 灵活的内容选择:可以自由选择任意网页元素,并为每个元素命名和设置提取属性
- 结构化数据输出:自动将抓取的内容组织成结构化的JSON或CSV格式
- 即时可见的结果:抓取后立即显示结果,方便用户确认数据是否符合预期
- 批量处理能力:一次性抓取页面上所有符合条件的内容,节省大量手动复制粘贴的时间

对比其它动作的优势
- 更直观的可视化界面:提供高亮显示和实时反馈,让用户清楚知道正在选择什么内容
- 完全可编辑的选择器:支持直接编辑CSS选择器,适合有一定技术基础的用户进行精细调整
- 多种提取方式:不仅可以提取文本,还支持HTML、outerHTML和任意属性值的提取
- 更智能的选择器生成:自动生成最优选择器,优先使用ID,其次是类名,最后才是位置关系
- 后期会针对部分网页专门开发:现已支持小红书首页,如果当前标签页运行动作会直接获取数据并展示出来

如何使用
- 选择容器元素:
- 点击"选择容器"按钮
- 在网页上点击包含所有目标内容的大框(如视频列表、文章列表等)
- 容器选择成功后会自动进入下一步
- 选择具体内容:
- 点击"选择具体内容"按钮
- 依次点击容器内你想要提取的各个元素(如标题、标题、点赞数等)
- 每选择一个元素,它会自动添加到列表中
- 可以点击每个元素的名称、选择器或提取方式进行编辑
- 完成选择后,点击"停止选择内容"按钮
- 开始抓取:
- 点击"开始抓取"按钮
- 工具会自动从所有匹配的容器中提取你选择的内容
- 抓取结果会以JSON格式显示在结果区域
- 导出或复制结果:
- 点击"复制结果"将JSON数据复制到剪贴板
- 点击"导出CSV"将数据保存为CSV文件,文件名会根据网页标题自动生成
- 高级用法:
- 可以手动编辑容器和内容的CSS选择器以实现更精确的抓取
- 可以修改提取方式,从默认的"text"改为"html"、"outerhtml"或特定属性名(如"href"、"src"等)
- 可以自定义每个字段的名称,使导出的数据更有可读性
这个通用网页内容抓取工具让数据收集变得简单高效,无论是收集产品信息、新闻文章、联系方式还是其他结构化数据,都能轻松应对,是提升工作效率的得力助手。
最近更新
修订版本
|
更新时间
|
更新说明
|
3
|
2小时24分钟前
|
新增抖音首页、搜索页、作者作品页、视频详情页评论区
|
2
|
1天1小时前
|
更新对bing搜索页面的搜索结果抓取
|
1
|
1天8小时前
|
添加对小红书详情页的抓取
|