NiQin (blog: 泥芹) shared the aphorism --
要成为赢家,诀窍就在于了解自己什么时候是输家。 -- 电影《转轮手枪》

[Rust] 使用 Rust 做异步数据采集的实践

💥 内容涉及著作权,均归属作者本人。若非作者注明,默认欢迎转载:请注明出处,及相关链接。

Summary: 使用 `Rust` 生态中的数据采集相关 `crate` 进行数据采集的实践:异步运行时 `async-std`,HTTP 客户端库 `reqwest`,数据采集库 `scraper`,以及控制台输出文字颜色标记库 `colored`。

Topics: rust 数据采集 异步数据采集

数据采集,生态工具最完整、成熟的,笔者认为莫过于 Python 了,特别是其 Scrapy 库的强大和成熟,是很多项目和产品的必选。笔者以前在大数据项目中,数据采集部分,也是和团队同事一起使用。不管从工程中的那个视觉来说,笔者认为 scrapy 都是完全满足的。

本文是使用 Rust 生态中的数据采集相关 crate 进行数据采集的实践,是出于这样的目的:新的项目中,统一为 Rust 技术栈;想尝试下 Rust 的性能优势,是否在数据采集中也有优势。

因此,本文更多的仅是关于 Rust 生态实践而言,并非是 Rust 做数据采集相比 Python 有优势。仅就语言而言,Rust 显然具有极大的性能优势。

好的,我们从头开始进行一次数据采集的完整实践,以站点 https://this-week-in-rust.org/ 为目标,采集所有的 Rust 周报

创建项目

我们使用 cargo,创建一个新项目。本项目我们要使用 Rust 的异步运行时 async-std,HTTP 客户端库 reqwest,数据采集库 scraper,以及控制台输出文字颜色标记库 colored。我们在创建项目后,一并使用 cargo-edit crate 将它们加入依赖项:

关于 cargo-edit 的安装和使用,请参阅文章《构建 Rust 异步 GraphQL 服务:基于 tide + async-graphql + mongodb(1)- 起步及 crate 选择

cargo new rust-async-crawl-example
cd ./rust-async-crawl-example
cargo add async-std reqwest scraper colored

成功执行后,Cargo.toml 文件清单的 dependencies 区域将有上述 4 个 crate。但是对于 async-std,本次实践中,我们进使用其 attributes 特性;对于 reqwest,我们则要启用其 blocking 特性。我们修改 Cargo.toml 文件,最终为如下内容:

[package]
name = "rust-crawl-week"
version = "0.1.0"
authors = ["zzy <linshi@budshome.com>"]
edition = "2018"

# See more keys and their definitions at https://doc.rust-lang.org/cargo/reference/manifest.html

[dependencies]
async-std = { version = "1.9.0", features = ["attributes"] }
reqwest = { version = "0.11.2", features = ["blocking"] }
scraper = "0.12.0"
colored = "2.0.0"

简要设计

数据采集,我们必定不会局限于一个站点。所以,我们参考 Python 中的库 scrapy 的思路,每个具体的爬虫,对应一个站点。因此,我们组织文件结构为 main.rs 是执行入口;sites.rs 或者 sites 模块,是具体各自站点爬中位置。本例中,我们只是对站点 https://this-week-in-rust.org/ 进行采集,所以将其编写在 sites.rs 文件中。实际的项目产品中,推荐使用 sites 模块,里面包含以各自站点命名的具体爬虫。

对于采集结果,我们要通过输出接口,将其输入到控制台、数据库、文档(文本、excel 等)。这些输出和写入的接口,也需要是在统一的位置,以便于后续扩展。

本实例中,我们将其打印输出到控制台。并在打印时,对于不同的站点、标题,以及 url 链接进行着色。

因此,本实践实例中,工程结构最终为:

工程结构

此时,我们还未编译构建,所以没有 Cargo.lock 文件和 target 目录。您如果跟随本文实践,cargo build 后,会产生它们。下文不再说明。

main.rs

数据采集入口文件,其代码要尽可能简单和简洁。

mod sites;

#[async_std::main]
async fn main() {

    // this-week-in-rust.org
    match sites::this_week_in_rust_org().await {
        Ok(site) => println!("{:#?}", site),
        Err(_) => eprintln!("Error fetching this-week-in-rust.org data."),
    }

    // 其它站点
    // ……
}

对于多个站点,我们逐次增加即可,这样有利于简单的后续扩展。这儿需要再次说明:本例中,我们只是对站点 https://this-week-in-rust.org/ 进行采集,所以将其编写在 sites.rs 文件中。实际的项目产品中,推荐使用 sites 模块,里面包含以各自站点命名的具体爬虫。

注意println!("{:#?}", site),控制台输出时,我们已经对其采用了 Rust 中默认最美观易读的输出方式。之所以标注此代码,是因为对于第一次不够“人类工程学”的显示方式,我们后面要进行迭代。

sites.rs

第一次编码,采集数据并输出

首先,我们要定义两个结构体,分别表示站点信息,以及采集目标数据的信息(本例为标题、url 链接)。

#[derive(Debug)]
pub struct Site {
    name: String,
    stories: Vec<Story>,
}

#[derive(Debug)]
struct Story {
    title: String,
    link: Option<String>,
}

对于目标数据的采集,我们的思路很简单,三步走:

  1. 获取 HTML 文档;
  2. 萃取数据标题;
  3. 萃取数据 url 链接。

我们定义这三个方法,并在具体的站点爬虫 this_week_in_rust_org 中,进行调用:

use reqwest::{blocking, Error};
use scraper::{ElementRef, Html, Selector};
use std::result::Result;

pub async fn this_week_in_rust_org() -> Result<Site, Error> {
    let s = Selector::parse("div.col-md-12 a").unwrap();
    let body = get_html("https://this-week-in-rust.org/blog/archives/index.html").await?;
    let stories = body
        .select(&s)
        .map(|element| Story {
            title: parse_title(element),
            link: parse_link(element),
        })
        .collect();
    let site = Site {
        name: "this-week-in-rust.org".to_string(),
        stories,
    };

    Ok(site)
}

async fn get_html(uri: &str) -> Result<Html, Error> {
    Ok(Html::parse_document(&blocking::get(uri)?.text()?))
}

fn parse_link(element: ElementRef) -> Option<String> {
    let mut link: Option<String> = None;
    if let Some(link_str) = element.value().attr("href") {
        let link_str = link_str.to_owned();
        link = Some(link_str);
    }

    link
}

fn parse_title(element: ElementRef) -> String {
    element.inner_html()
}

这段代码是很易读的,代码既是最好的文档。注意获取 HTML 文档的函数 get_html 和 爬虫调用函数 this_week_in_rust_org 是异步的,而萃取链接函数 parse_link 和萃取标题函数 parse_title 则不是。因为具体的萃取,是在一个数据解析进程中执行的,异步与否笔者认为意义不大。当然,您如果有兴趣,可以改为异步函数,进行性能对比。

第一次编码完成,我们编译、运行看看部分输出结果:

安装依赖较多,如果时间较长,请配置 Cargo 国内镜像源

无 display trait

这个输出数据是 json 格式的,并且文字也没有颜色区分。对于其它输入调用接口,非常合适。比如数据库和导出文档等。但是对于人眼阅读来说,则有些不够友好,我们希望输出就是标题和其链接就可以了。

第二次编码,输出数据格式优化

第一次编码中,我们使用的是 Rust 默认的 Display trait。我们要实现自定义输出数据格式,也就是需要对 SiteStory 2 个结构体实现自定义 Display trait。

use colored::Colorize;
use std::fmt;

impl fmt::Display for Site {
    fn fmt(&self, f: &mut fmt::Formatter) -> fmt::Result {
        writeln!(f, "{}", self.name.blue().bold())?;
        for story in &self.stories {
            writeln!(f, "{}", story)?;
        }
        Ok(())
    }
}

impl fmt::Display for Story {
    fn fmt(&self, f: &mut fmt::Formatter) -> fmt::Result {
        match &self.link {
            Some(link) => write!(f, "\t{}\n\t\t({})", self.title.green(), link),
            None => write!(f, "\t{}", self.title),
        }
    }
}

此时,我们 main.rs 中的打印,甚至不需要指定 Display 方式的:

mod sites;

#[async_std::main]
async fn main() {

    // this-week-in-rust.org
    match sites::this_week_in_rust_org().await {
        Ok(site) => println!("{}", site),
        Err(_) => eprintln!("Error fetching this-week-in-rust.org data."),
    }

    // 其它站点
    // ……
}

我们现在看看输出结果:

display trait

人眼阅读,这种方式合适一些,并且 url 链接,可以直接点击。

感兴趣的朋友,可以参阅 github 完整代码仓库

谢谢您的阅读!


Related Articles

  1. [Rust] RustHub.org:基于 Rust-Web 技术栈,及 image-rs、fluent-rs、rhai-script ……
  2. [WebAssembly] yew SSR 服务器端渲染
  3. [Rust] async-std 创建者对于最近“项目是否已死?”,移除对其支持等的答复
  4. [Rust] Rust 1.56.0 版本和 Rust 2021 版次发布,新特性一览,及项目的迁移、升级
  5. [WebAssembly] Rust 和 Wasm 的融合,使用 yew 构建 WebAssembly 博客应用的体验报告
  6. [Rust] Rust 官方周报 399 期(2021-07-14)
  7. [WebAssembly] Rust 和 Wasm 的融合,使用 yew 构建 web 前端(5)- 构建 HTTP 请求、与外部服务器通信的两种方法
  8. [Rust] Rust 官方周报 398 期(2021-07-07)
  9. [Rust] Rust 官方周报 397 期(2021-06-30)
  10. [Rust] Rust 官方周报 396 期(2021-06-23)
  11. [Rust] Rust 官方周报 395 期(2021-06-16)
  12. [Rust] Rust 1.53.0 明日发布,关键新特性一瞥
  13. [Rust] 使用 tide、handlebars、rhai、graphql 开发 Rust web 前端(3)- rhai 脚本、静态/资源文件、环境变量等
  14. [Rust] 使用 tide、handlebars、rhai、graphql 开发 Rust web 前端(2)- 获取并解析 GraphQL 数据
  15. [Rust] 使用 tide、handlebars、rhai、graphql 开发 Rust web 前端(1)- crate 选择及环境搭建
  16. [Rust] Rust 官方周报 394 期(2021-06-09)
  17. [Rust] Rust web 前端库/框架评测,以及和 js 前端库/框架的比较
  18. [WebAssembly] Rust 和 Wasm 的融合,使用 yew 构建 web 前端(4)- 获取 GraphQL 数据并解析
  19. [WebAssembly] Rust 和 Wasm 的融合,使用 yew 构建 web 前端(3)- 资源文件及小重构
  20. [WebAssembly] Rust 和 Wasm 的融合,使用 yew 构建 WebAssembly 标准的 web 前端(2)- 组件和路由
  21. [WebAssembly] Rust 和 Wasm 的融合,使用 yew 构建 WebAssembly 标准的 web 前端(1)- 起步及 crate 选择
  22. [Rust] Rust 官方周报 393 期(2021-06-02)
  23. [Rust] Rust 官方周报 392 期(2021-05-26)
  24. [Rust] Rust 中,对网址进行异步快照,并添加水印效果的实践
  25. [Rust] Rust 官方周报 391 期(2021-05-19)
  26. [Rust] Rust,风雨六载,砥砺奋进
  27. [Rust] 为什么我们应当将 Rust 用于嵌入式开发?
  28. [Rust] Rust 官方周报 390 期(2021-05-12)
  29. [Rust] Rust + Android 的集成开发设计
  30. [Rust] Rust 1.52.1 已正式发布,及其新特性详述
  31. [Rust] 让我们用 Rust 重写那些伟大的软件吧
  32. [Rust] Rust 1.52.0 已正式发布,及其新特性详述
  33. [Rust] Rust 官方周报 389 期(2021-05-05)
  34. [GraphQL] 基于 actix-web + async-graphql + rbatis + postgresql / mysql 构建异步 Rust GraphQL 服务(4) - 变更服务,以及小重构
  35. [Rust] Rust 1.52.0 稳定版预发布测试中,关键新特性一瞥
  36. [Rust] Rust 生态中,最不知名的贡献者和轶事
  37. [Rust] Rust 基金会迎来新的白金会员:Facebook
  38. [Rust] Rustup 1.24.1 已官宣发布,及其新特性详述
  39. [Rust] Rust 官方周报 388 期(2021-04-28)
  40. [Rust] Rust 官方周报 387 期(2021-04-21)
  41. [GraphQL] 构建 Rust 异步 GraphQL 服务:基于 tide + async-graphql + mongodb(4)- 变更服务,以及第二次重构
  42. [Rust] Rustup 1.24.0 已官宣发布,及其新特性详述
  43. [Rust] basedrop:Rust 生态中,适用于实时音频的垃圾收集器
  44. [Rust] Rust 编译器团队对成员 Aaron Hill 的祝贺
  45. [Rust] Jacob Hoffman-Andrews 加入 Rustdoc 团队
  46. [机器人] 为什么应将 Rust 引入机器人平台?以及机器人平台的 Rust 资源推荐
  47. [Rust] rust-lang.org、crates.io,以及 docs.rs 的管理,已由 Mozilla 转移到 Rust 基金会
  48. [Rust] Rust 官方周报 386 期(2021-04-14)
  49. [Rust] Rust 编译器(Compiler)团队 4 月份计划 - Rust Compiler April Steering Cycle
  50. [GraphQL] 基于 actix-web + async-graphql + rbatis + postgresql / mysql 构建异步 Rust GraphQL 服务(3) - 重构
  51. [Rust] 头脑风暴进行中:Async Rust 的未来熠熠生辉
  52. [GraphQL] 基于 actix-web + async-graphql + rbatis + postgresql / mysql 构建异步 Rust GraphQL 服务(2) - 查询服务
  53. [GraphQL] 基于 actix-web + async-graphql + rbatis + postgresql / mysql 构建异步 Rust GraphQL 服务 - 起步及 crate 选择
  54. [Rust] Rust 2021 版本特性预览,以及工作计划
  55. [Rust] Rust 用在生产环境的 42 家公司
  56. [Rust] 构建最精简的 Rust Docker 镜像
  57. [Rust] Rust 官方周报 385 期(2021-04-07)
  58. [Rust] 使用 Rust 做异步数据采集的实践
  59. [Rust] Android 支持 Rust 编程语言,以避免内存缺陷
  60. [Rust] Android 平台基础支持转向 Rust
  61. [Rust] Android 团队宣布 Android 开源项目(AOSP),已支持 Rust 语言来开发 Android 系统本身
  62. [Rust] RustyHermit——基于 Rust 实现的下一代容器 Unikernel
  63. [Rust] Rustic:完善的纯粹 Rust 技术栈实现的国际象棋引擎,多平台支持(甚至包括嵌入式设备树莓派 Raspberry Pi、Buster)
  64. [Rust] Rust 迭代器(Iterator trait )的要诀和技巧
  65. [Rust] 使用 Rust 极致提升 Python 性能:图表和绘图提升 24 倍,数据计算提升 10 倍
  66. [Rust] 【2021-04-03】Rust 核心团队人员变动
  67. [Rust] Rust web 框架现状【2021 年 1 季度】
  68. [Rust] Rust 官方周报 384 期(2021-03-31)
  69. [Rust] Rust 中的解析器组合因子(parser combinators)
  70. [生活] 毕马威(KPMG)调查报告:人工智能的实际采用,在新冠疫情(COVID-19)期间大幅提升
  71. [Python] HPy - 为 Python 扩展提供更优秀的 C API
  72. [Rust] 2021 年,学习 Rust 的网络资源推荐(2)
  73. [Rust] 2021 年,学习 Rust 的网络资源推荐
  74. [生活] 况属高风晚,山山黄叶飞——彭州葛仙山露营随笔
  75. [Rust] Rust 1.51.0 已正式发布,及其新特性详述
  76. [Rust] 为 Async Rust 构建共享的愿景文档—— Rust 社区的讲“故事”,可获奖
  77. [Rust] Rust 纪元第 382 周最佳 crate:ibig 的实践,以及和 num crate 的比较
  78. [Rust] Rust 1.51.0 稳定版本改进介绍
  79. [Rust] Rust 中将 markdown 渲染为 html
  80. [生活] 国民应用 App 的用户隐私数据窥探
  81. [GraphQL] 构建 Rust 异步 GraphQL 服务:基于 tide + async-graphql + mongodb(3)- 重构
  82. [GraphQL] 构建 Rust 异步 GraphQL 服务:基于 tide + async-graphql + mongodb(2)- 查询服务
  83. [GraphQL] 构建 Rust 异步 GraphQL 服务:基于 tide + async-graphql + mongodb(1)- 起步及 crate 选择
  84. [Rust] Rust 操控大疆可编程 tello 无人机

Topics

rust(84)

graphql(17)

rust-官方周报(17)

webassembly(16)

wasm(10)

tide(9)

async-graphql(9)

yew(9)

rust-web(8)

rust-官方博客(8)

this-week-in-rust(6)

mysql(5)

actix-web(5)

rbatis(5)

android(4)

mongodb(3)

json-web-token(3)

jwt(3)

cargo(3)

技术延伸(3)

rust-wasm(3)

trunk(3)

handlebars(3)

rhai(3)

async-std(3)

用户隐私(2)

学习资料(2)

python(2)

ai(2)

人工智能(2)

postgresql(2)

rust-compiler(2)

rust-基金会(2)

rust-foundation(2)

rustup(2)

rust-toolchain(2)

rust-工具链(2)

rust-游戏开发(2)

rust-区块链(2)

rust-2021(2)

graphql-client(2)

surf(2)

rust-game(2)

rusthub(2)

tello(1)

drone(1)

无人机(1)

隐私数据(1)

markdown(1)

html(1)

crate(1)

async(1)

异步(1)

旅游(1)

不忘生活(1)

葛仙山(1)

hpy(1)

python-扩展(1)

正则表达式(1)

解析器组合因子(1)

组合器(1)

regular-expression(1)

parser-combinator(1)

regex(1)

官方更新(1)

rust-工作招聘(1)

rust-技术资料(1)

rust-周最佳-crate(1)

rust-web-框架(1)

rust-web-framework(1)

rust-核心团队(1)

rust-core-team(1)

rust-language-team(1)

pyo3(1)

rust-python-集成(1)

python-性能改进(1)

迭代器(1)

iterator-trait(1)

国际象棋(1)

chess(1)

游戏引擎(1)

game-engine(1)

虚拟化(1)

unikernel(1)

rustyhermit(1)

linux(1)

virtualization(1)

sandboxing(1)

沙箱技术(1)

数据采集(1)

异步数据采集(1)

docker(1)

镜像(1)

生产环境(1)

rust-评价(1)

rust-2021-edition(1)

rust-2021-版本(1)

graphql-查询(1)

vision-doc(1)

愿景文档(1)

代码重构(1)

steering-cycle(1)

方向周期(1)

隐私声明(1)

机器人(1)

robotics(1)

rustdoc(1)

rust-编译器(1)

实时音频(1)

real-time-audio(1)

变更服务(1)

mutation(1)

查询服务(1)

query(1)

rust-贡献者(1)

rust-轶事(1)

rust-稳定版(1)

rust-预发布(1)

rust-测试(1)

安全编程(1)

可信计算(1)

安全代码(1)

secure-code(1)

rust-android-integrate(1)

rust-embedded(1)

rust-嵌入式(1)

rust-生产环境(1)

rust-production(1)

网页快照(1)

网页截图(1)

水印效果(1)

图片水印(1)

yew-router(1)

css(1)

web-前端(1)

wasm-bindgen(1)

区块链(1)

blockchain(1)

dotenv(1)

标识符(1)

rust-1.53.0(1)

rust-1.56.0(1)

rust-项目升级(1)

异步运行时(1)

ssr(1)

tokio(1)

warp(1)

reqwest(1)

graphql-rust(1)


Elsewhere

- Open Source
  1. github/zzy
  2. github/sansx
- Learning & Studying
  1. Rust 学习资料 - 泥芹