搜索类源

通过 Google、Jina、Firecrawl、Tavily、秘塔等搜索引擎 API 主动检索关键词，自动收集结果。

什么是搜索类源

搜索类源通过搜索引擎API主动搜索关键词,自动收集搜索结果。适合监控特定话题、跟踪品牌声量、发现行业动态。

核心优势:

主动发现内容(而非被动订阅)
支持复杂关键词组合
可选择性抓取详情页

支持的搜索引擎

1. Google Search

特点:

全球最大搜索引擎,覆盖面最广
使用 Google Custom Search API
支持抓取详情页(需要额外配置)

适用场景:

全球新闻监控
英文内容搜索
广泛的话题覆盖

配置要求:

Google API Key(通过 Google Cloud Console 获取)
Search Engine ID(创建自定义搜索引擎)

成本:约 10 credits/条

2. Jina AI Search

特点:

AI驱动的语义搜索
专注于高质量内容
支持抓取详情页

适用场景:

技术文档搜索
高质量内容筛选
语义相关性匹配

配置要求:

Jina API Key(访问 https://jina.ai 获取)

成本:约 10 credits/条

3. Firecrawl Search

特点:

专业的网页抓取服务
原生支持详情抓取(搜索时直接获取Markdown内容)
返回结构化的Markdown格式

适用场景:

需要完整内容的场景
结构化数据提取
高质量内容清洗

配置要求:

Firecrawl API Key(访问 https://firecrawl.dev 获取)

成本:

搜索:约 10 credits/条
详情抓取:已包含在搜索中(无额外费用)

💡 提示:Firecrawl是唯一在搜索时直接返回Markdown的引擎,无需二次抓取

4. Tavily Search

特点:

面向 LLM / Agent 场景的搜索 API
同时返回原文链接、简短摘要与发布时间
不直接返回完整正文,需配合 scraper 二次抓取
搜索深度可调（basic / advanced）

适用场景:

给 Agent / 报告生成提供精炼候选集
配合 fetch_detail=true 走二次抓取流水线
全球新闻 / 学术内容兼顾

配置要求:

Tavily API Key（访问 https://tavily.com 获取）

成本:约 5 credits/次

5. Metaso Search (秘塔AI)

特点:

中文AI搜索引擎
专注于中文内容
支持全网搜索和学术搜索两种模式
不支持直接抓取详情(仅返回摘要)

适用场景:

中文内容监控
国内资讯搜索
学术文献发现

配置要求:

Metaso API Key(访问 https://metaso.cn 获取)

搜索范围:

webpage - 全网搜索(默认)
academic - 学术搜索

成本:约 3 credits/次

配置参数说明

1. 关键词 (keywords)

必填项,搜索的关键词或短语。

示例:

"人工智能 大模型"
"OpenAI GPT-4"
"renewable energy policy"

技巧:

使用双引号精确匹配:"exact phrase"
使用空格表示AND关系:AI GPT
组合多个关键词提高相关性

2. 最大结果数 (max_results)

可选项,每次搜索返回的最大结果数。

默认值:10

范围:

Google Search: 1-10(Google API限制)
Jina/Firecrawl/Metaso: 1-50

示例:

{
  "keywords": "AI news",
  "max_results": 20
}

成本提示:结果数越多,消耗积分越多(按条计费)

3. 是否抓取详情页 (fetch_detail)

可选项,是否抓取搜索结果的详情页内容。

默认值:

Google/Jina/Firecrawl: true(默认抓取)
Metaso: 不支持(永远返回摘要)

工作原理:

Firecrawl:搜索时直接返回Markdown(无额外开销)
Google/Jina:搜索后使用 Firecrawl → Browserless 降级链路二次抓取
Metaso:仅返回摘要(snippet),不支持详情抓取

示例:

{
  "keywords": "AI news",
  "fetch_detail": false
}

详情页抓取机制

抓取策略

Firecrawl优先 + Browserless降级:

首先尝试使用 Firecrawl v2 Scrape API
如果失败,自动降级到 Browserless (headless Chrome)
如果仍失败,保留原始摘要(snippet)

CAPTCHA检测

系统自动检测验证码页面,避免保存无效内容:

检测关键词:"verify you are human", "captcha", "robot check"
检测到CAPTCHA时,使用摘要代替详情
不计入抓取成功统计

并发限制

为避免API限流,系统自动控制并发:

Firecrawl:最多 5 个并发请求
Browserless:最多 3 个并发请求
可在管理后台调整(/admin/system-config)

统计信息

每次搜索完成后,会显示详情抓取统计:

Detail Scraping Stats:
- Total: 10
- Success: 8
- Failed: 2
- Firecrawl: 6
- Browserless: 2

配置示例

示例 1: Google搜索 + 抓取详情

{
  "keywords": "renewable energy policy 2024",
  "max_results": 10,
  "fetch_detail": true
}

说明:

搜索关键词:renewable energy policy 2024
返回 10 条结果
自动抓取每条结果的详情页
使用 Firecrawl → Browserless 降级链路

成本估算:

搜索:10条 × 10 credits = 100 credits
详情抓取:已包含在搜索中

示例 2: Firecrawl搜索(推荐)

{
  "keywords": "AI大模型 最新进展",
  "max_results": 15,
  "fetch_detail": true
}

说明:

使用 Firecrawl 搜索(选择 firecrawl 子类型)
搜索时直接返回 Markdown 内容
无需二次抓取,速度更快
内容质量最高(专业清洗)

示例 3: 秘塔AI搜索(中文)

{
  "keywords": "人工智能 政策法规",
  "max_results": 20,
  "search_scope": "webpage"
}

说明:

使用秘塔AI搜索(选择 metaso 子类型)
全网搜索模式(webpage)
仅返回摘要(不支持 fetch_detail)
适合中文内容监控

示例 4: 学术搜索

{
  "keywords": "machine learning interpretability",
  "max_results": 10,
  "search_scope": "academic"
}

说明:

使用秘塔AI学术搜索
搜索范围:academic(学术模式)
返回论文、学术文章
适合研究和文献综述

最佳实践

✅ 关键词优化

使用精确短语:

❌ AI (太宽泛)
✅ "GPT-4 Turbo release notes" (精确匹配)

组合多个关键词:

❌ news (结果过多)
✅ "climate change" policy 2024 (多关键词)

✅ 成本优化

关闭不必要的详情抓取:

仅需标题和摘要 → fetch_detail: false
节省 ~50% 成本

选择合适的搜索引擎:

中文内容 → Metaso (3 credits/次)
英文内容 + 详情 → Firecrawl (10 credits/次)
广泛覆盖 → Google (10 credits/次)

✅ 定时策略

新闻监控:

定时策略:每 12 小时
去重策略:KEEP_OLD(避免重复抓取)

关键词跟踪:

定时策略:每天 1-2 次
去重策略:UPDATE(获取最新版本)

⚠️ 常见问题

问题 1:搜索结果少于预期

原因:

关键词过于精确
搜索引擎API限制

解决:

放宽关键词
尝试不同搜索引擎

问题 2:详情抓取失败率高

原因:

目标网站有反爬虫机制
存在CAPTCHA验证

解决:

使用 Firecrawl 搜索(绕过率更高)
关闭 fetch_detail,仅使用摘要

问题 3:内容重复

原因:

定时策略过于频繁
去重策略设置不当

解决:

降低搜索频率(每天1次)
使用 KEEP_OLD 去重策略

下一步

RSS订阅源 - 订阅网站更新
网页与邮件源 - 抓取指定页面
数据源总览 - 了解所有数据源类型

On this page