[ PROMPT_NODE_27850 ]
web-scraper-api
[ SKILL_DOCUMENTATION ]
# Web Scraper API 参考
## 目录
- [概述](#概述)
- [身份验证](#身份验证)
- [选择同步与异步](#选择同步与异步)
- [同步请求](#同步请求)
- [异步请求](#异步请求)
- [监控进度](#监控进度)
- [下载结果](#下载结果)
- [爬虫类型](#爬虫类型)
- [输出格式](#输出格式)
- [计费模式](#计费模式)
- [最佳实践](#最佳实践)
---
## 概述
Bright Data Web Scraper API 为 100 多个热门网站(包括 Amazon, LinkedIn, Instagram, TikTok, YouTube, Facebook 等)提供预构建的爬虫(“数据集”)。您提供输入(URL 或关键字),即可获得干净的结构化 JSON/CSV 数据,无需编写任何抓取逻辑。
**支持的域名包括:** Amazon, eBay, Walmart, LinkedIn, Instagram, TikTok, YouTube, Facebook, Reddit, Twitter/X, Crunchbase, ZoomInfo 等等。
---
## 身份验证
bash
export BRIGHTDATA_API_KEY="your-api-key"
从以下地址获取您的 API 密钥:`https://brightdata.com/cp/setting/users`
所有请求均使用 Bearer 令牌身份验证:
Authorization: Bearer YOUR_API_KEY
---
## 选择同步与异步
| 因素 | 同步 (`/scrape`) | 异步 (`/trigger`) |
|--------|------------------------|---------------------------|
| 输入大小 | 最多 **20 个 URL** | 任意大小 — 专为批量处理设计 |
| 响应时间 | 立即(1 分钟内) | 后台作业 — 轮询完成状态 |
| 超时行为 | 若 >1 分钟返回 202 + `snapshot_id` | N/A — 始终异步 |
| 最佳用途 | 实时单次查询 | 大规模批处理、定时任务 |
---
## 同步请求
**端点:** `POST https://api.brightdata.com/datasets/v3/scrape`
结果直接在响应正文中返回。
### 请求参数
| 参数 | 类型 | 必填 | 描述 |
|-----------|------|----------|-------------|
| `dataset_id` | string | 是 | 标识要使用的爬虫(来自爬虫库) |
| `format` | string | 否 | 输出格式:`json` (默认), `ndjson`, `jsonl`, 或 `csv` |
| `custom_output_fields` | string | 否 | 用管道符分隔的字段名以过滤输出 (例如 `url|title|price`) |
| `include_errors` | boolean | 否 | 在结果中包含错误报告 |
### 请求正文
{
"input": [
{ "url": "https://www.amazon.com/dp/B09X7M8TBQ" },
{ "url": "https://www.amazon.com/dp/B0B7CTCPKN" }
]
}
### Python 示例
python
import requests
respo