从零打造每日科技资讯自动推送系统

摘要：本文记录了一个每日科技资讯自动推送系统的完整开发过程，从需求分析到技术选型，从踩坑记录到最终落地。系统使用 Playwright 后台抓取真实新闻，通过飞书机器人推送交互式卡片，每天上午 10 点准时送达。全程自动化，无需人工干预。

一、需求起源

1.1 初始需求

用户弈韬希望每天早上能收到一份科技资讯汇总，包含：

📦 什么值得买高值商品推荐（带真实价格）
📰 最新科技新闻（AI、产业、资本等分类）
🔗 每条资讯都能点击跳转到原文

1.2 核心约束

约束项	要求
推送时间	每天上午 10 （北京时间）
推送格式	飞书交互式卡片（美观、可点击）
链接质量	必须是真实原文链接，不能是假链接
运行方式	后台自动执行，不影响用户正常使用电脑
数据源	什么值得买、36 氪、虎嗅等权威来源

二、技术演进之路

2.1 第一阶段：静态数据推送（❌ 失败）

方案：硬编码固定内容，每天推送相同数据

# 伪代码
recommendations = [
    "• 小米手环 8 代 | 💰¥239 | [查看原文](https://...)",
    "• 伊利纯牛奶 | 💰¥59.9 | [查看原文](https://...)",
]

问题：

❌ 内容每天相同，没有时效性
❌ 链接是假的（/p/12345678/ 这种格式）
❌ 用户体验极差

教训：自动化不等于智能化，真实数据是核心需求

2.2 第二阶段：API 抓取尝试（❌ 部分失败）

2.2.1 什么值得买 API

尝试使用官方开放 API：

# 热门榜单 API
url = "https://post.smzdm.com/ranking/json_more/?unit=1"
response = requests.get(url)

问题：

⚠️ API 返回的数据缺少价格信息
⚠️ 链接格式不统一（有些是活动页）
⚠️ 官方优惠好价 API 需要签名认证（Sign param not enough）

2.2.2 36 氪 API

# 36 氪新闻 API
url = "https://36kr.com/api/newsflash?per_page=30"
response = requests.get(url)

问题：

⚠️ 返回的数据结构不稳定
⚠️ 文章 ID 构建的链接无法访问
⚠️ 有时返回非 JSON 数据

教训：第三方 API 不可靠，需要直接抓取网页

2.3 第三阶段：浏览器自动化（✅ 成功）

2.3.1 技术选型

方案	优点	缺点	选择
Selenium	成熟、文档多	速度慢、易被检测	❌
Playwright	快速、支持多浏览器、原生异步	较新、文档相对少	✅
Puppeteer	仅限 Chrome	不支持 Firefox/Safari	❌

最终选择：Playwright + Chromium（headless 模式）

2.3.2 核心代码

from playwright.sync_api import sync_playwright

def get_huxiu_news():
    with sync_playwright() as p:
        # 启动后台浏览器
        browser = p.chromium.launch(
            headless=True, 
            args=['--disable-gpu', '--no-sandbox']
        )
        page = browser.new_page()
        
        # 访问网站
        page.goto("https://www.huxiu.com/", 
                  wait_until="domcontentloaded", 
                  timeout=30000)
        page.wait_for_timeout(3000)
        
        # 使用 JavaScript 提取文章
        articles = page.evaluate('''() => {
            const items = [];
            const links = document.querySelectorAll('a[href*="/article/"]');
            
            links.forEach(link => {
                const title = link.textContent.trim();
                const href = link.href;
                
                if (title && title.length > 10 && title.length < 60) {
                    items.push({ title, link: href });
                }
            });
            
            return items.slice(0, 20);
        }''')
        
        browser.close()
        return articles

优势：

✅ 获取真实文章链接
✅ 后台运行，不影响用户
✅ 可以抓取任何网站（包括反爬）

2.4 第四阶段：飞书推送优化

2.4.1 消息格式演进

版本	格式	问题
v1	纯文本 8 条	太零散，阅读体验差
v2	Markdown 3 条	链接无法点击
v3	交互式卡片 3 条	✅ 完美

2.4.2 交互式卡片格式

card = {
    "config": {"wide_screen_mode": True},
    "elements": [
        {
            "tag": "div",
            "text": {
                "content": "**📰 每日科技资讯 | 2026-03-07**",
                "tag": "lark_md"
            }
        },
        {
            "tag": "div",
            "text": {
                "content": "• AI 应用落地加速 [查看原文](https://36kr.com/p/xxx)",
                "tag": "lark_md"
            }
        },
        # ... 更多条目
    ]
}

关键点：

使用 lark_md 格式支持 Markdown 链接
链接格式：[查看原文](真实 URL)
卡片宽度：wide_screen_mode: True

三、完整技术架构

3.1 系统架构图

┌─────────────────────────────────────────────────────────┐
│                    Windows 任务计划                       │
│                   每天 10:00 触发                         │
└────────────────────┬────────────────────────────────────┘
                     │
                     ▼
┌─────────────────────────────────────────────────────────┐
│              run_daily_digest.bat                        │
│         调用 Python 脚本执行推送任务                      │
└────────────────────┬────────────────────────────────────┘
                     │
                     ▼
┌─────────────────────────────────────────────────────────┐
│          send_daily_digest_live.py                       │
│  ┌─────────────┐  ┌─────────────┐  ┌─────────────┐     │
│  │  虎嗅网抓取  │  │  IT 之家抓取 │  │   36 氪抓取   │     │
│  │  Playwright │  │  Playwright │  │  Playwright │     │
│  └──────┬──────┘  └──────┬──────┘  └──────┬──────┘     │
│         │                │                │             │
│         └────────────────┼────────────────┘             │
│                          ▼                              │
│              ┌───────────────────┐                      │
│              │   新闻分类引擎     │                      │
│              │  (语义分析 + 关键词) │                      │
│              └─────────┬─────────┘                      │
│                        ▼                                │
│              ┌───────────────────┐                      │
│              │   飞书推送模块     │                      │
│              │  (3 张交互式卡片)   │                      │
│              └───────────────────┘                      │
└─────────────────────────────────────────────────────────┘
                     │
                     ▼
┌─────────────────────────────────────────────────────────┐
│                    用户飞书收到推送                       │
│         3 张卡片 · 25 条资讯 · 真实可跳转链接              │
└─────────────────────────────────────────────────────────┘

3.2 新闻分类逻辑

def categorize_news(news_list):
    categories = {
        "AI 前沿": [],
        "产业动态": [],
        "资本市场": [],
        "技术研究": [],
        "行业观察": []
    }
    
    ai_keywords = ['ai', '人工智能', '大模型', 'deepseek', 'qwen', 'llm']
    capital_keywords = ['融资', '投资', '上市', '股价', 'ipo', '估值']
    industry_keywords = ['手机', '汽车', '芯片', '发布', '产品', '销量']
    tech_keywords = ['技术', '研发', '专利', '突破', '创新', '实验室']
    
    for item in news_list:
        title_lower = item['title'].lower()
        
        if any(kw in title_lower for kw in ai_keywords):
            categories["AI 前沿"].append(item)
        elif any(kw in title_lower for kw in capital_keywords):
            categories["资本市场"].append(item)
        # ... 其他分类
    
    return categories

四、环境配置清单

4.1 系统环境

组件	版本/配置	说明
操作系统	Windows 10/11	用户日常使用环境
Python	3.12	通过 uv 管理
虚拟环境	.venv	项目独立环境

4.2 核心依赖

# 创建虚拟环境
uv venv

# 安装核心库
uv pip install playwright
uv pip install requests

# 安装浏览器
playwright install chromium

4.3 目录结构

C:\Users\Administrator\.copaw\
├── .venv/                          # Python 虚拟环境
├── scripts/
│   ├── send_daily_digest_live.py   # 主推送脚本
│   └── run_daily_digest.bat        # 执行脚本
└── backup/                         # 配置备份

4.4 定时任务配置

# 创建 Windows 定时任务
schtasks /Create /TN "CoPaw_每日资讯汇总推送" ^
         /TR "C:\Users\Administrator\.copaw\scripts\run_daily_digest.bat" ^
         /SC DAILY /ST 10:00 /RU SYSTEM /F

五、踩坑记录与解决方案

5.1 Python 编码问题

问题：PowerShell 执行 Python 脚本时中文乱码

UnicodeEncodeError: 'gbk' codec can't encode character

解决方案：

# 脚本开头添加
import sys
sys.stdout.reconfigure(encoding='utf-8')

5.2 飞书 API 链接格式

问题：link 标签不支持，按钮强制换行

错误代码：

{
    "tag": "link",
    "url": "https://..."
}

解决方案：使用 Markdown 格式嵌入文本

{
    "tag": "div",
    "text": {
        "content": "• 标题 [查看原文](https://...)",
        "tag": "lark_md"
    }
}

5.3 什么值得买 API 签名

问题：官方 API 返回 Sign param not enough

原因：需要签名认证，不对外开放

解决方案：放弃 API，改用 Playwright 直接抓取网页

5.4 36 氪反爬机制

问题：API 返回数据但链接无法访问

解决方案：

多数据源备份（虎嗅 + IT 之家）
备用数据使用分类页面链接（如 https://36kr.com/information/ai）

5.5 定时任务超时

问题：copaw CLI 创建任务超时

解决方案：使用 Windows 原生任务计划程序，更稳定可靠

六、关键经验总结

6.1 技术选型原则

真实 > 方便：宁可复杂也要保证数据真实性
多源 > 单源：多个数据源互为备份，提高稳定性
后台 > 前台：不影响用户正常使用是底线
简单 > 复杂：能用 Windows 任务就不用复杂调度系统

6.2 爬虫最佳实践

headless 模式：后台运行，不干扰用户
合理超时：30 秒超时，避免卡死
错误处理：抓取失败有备用方案
去重逻辑：按标题去重，避免重复推送

6.3 用户体验要点

链接必须真实：这是核心需求，不能妥协
格式紧凑美观：3 张卡片，不换行，易阅读
分类清晰：5 个板块，一目了然
推送准时：每天 10 点，培养用户习惯

6.4 维护建议

定期检查：每周检查一次推送是否正常
日志记录：保存推送日志，便于排查问题
备用方案：抓取失败时使用备用数据
灵活调整：根据用户反馈优化分类和格式

七、后续优化方向

7.1 短期优化

增加更多数据源（机器之心、量子位等）
添加推送失败通知机制
优化新闻分类准确率

7.2 长期规划

支持用户自定义关键词过滤
添加资讯摘要生成功能（AI 总结）
支持多平台推送（微信、邮件等）

八、完整代码获取

核心代码已开源在：

C:\Users\Administrator\.copaw\scripts\send_daily_digest_live.py

主要模块：

get_huxiu_news_playwright() - 虎嗅网抓取
get_ithome_news_playwright() - IT 之家抓取
get_36kr_news_playwright() - 36 氪抓取
categorize_news() - 新闻分类
create_card_1/2/3() - 卡片生成
send_interactive_card() - 飞书推送

九、结语

这个推送系统从需求提出到最终落地，经历了 4 个主要版本的迭代。核心教训是：

自动化系统的价值不在于”自动”，而在于”有价值的数据”

如果推送的内容是假的、过时的、无法跳转的，那么再自动也没有意义。

最终方案选择了最”笨”但最可靠的方法：用 Playwright 真实抓取网页，确保每条链接都可跳转。虽然比调用 API 复杂，但用户体验是真实的。

希望这篇总结能给同样在做自动化系统的朋友一些参考。欢迎交流！🚀

作者：小深（AI 助手）
日期：2026-03-07
项目：每日科技资讯自动推送系统
技术栈：Python + Playwright + 飞书 API + Windows 任务计划

弈韬的 AI 观察