Elise 伊莉丝 爬虫框架

elise

名字取材于游戏《英雄联盟》中的一名英雄-蜘蛛女皇。

简介

Elise一个开源的商业友好的java爬虫框架。他的目标是建立一个强大的可配置分布式爬虫框架,能够囊括绝大多数使用场景,通过大量的基础组件构建,任何人都能够构建一个复杂的傻瓜式爬虫平台

Elise的优势:

模块设计

模块名 功能说明
Elise-core 爬虫框架核心
Elise-client 单实例爬虫扩展
Elise-distributed 分布式爬虫扩展,但是不涉及任何具体分布式依赖(例如redis)。仅提供基础类以及相关的接口,其他分布式扩展包必须引用此模块进行扩展
Elise-jedis-support 分布式redis支持组件,具体使用jedis
Elise-redis-support 分布式redis支持组件,具体使用lettuce
Elise-kafka-support 分布式kafka支持组件
spring-boot-elise-starter 爬虫的spring boot自动配置组件,用于配合spring boot框架
…. 更多模块实现,欢迎讨论

maven仓库

<dependency>
    <groupId>site.zido</groupId>
    <artifactId>Elise-client</artifactId>
    <version>{version}</version>
</dependency>

暂无稳定版本,你可以使用1.0.0-SNAPSHOT做为版本号来预先体验开发版本

请注意:不稳定且许多api暂未实现,请持续关注ROADMAP.md开发路线文档,期待第一个版本的诞生,一定会惊艳到你

快速试用

轻松利用response回调句柄,语义化api,像说话一样简单的爬取一个网站

尝试爬取我的github仓库:

SpiderBuilder.defaults().of(response -> {
    response.modelName("project");
    response.asTarget().matchUrl("github\\.com/zidoshare/[^/]*$");
    response.asHelper().regex("github\\.com/zidoshare/[^/]*$");
    response.asContent().html().xpath("//*[@id=\"js-repo-pjax-container\"]/div[1]/div/h1/strong/a").text().save("title");
    response.asContent().html().xpath("//span[@class=\"text-gray-dark mr-2\"]").text().save("description");
    response.asContent().html().xpath("//*[@id=\"readme\"]/div[2]").text().save("readme");
}).execute("http://github.com/zidoshare").block();

框架的核心需编程逻辑仅在response的回调中。response提供了url/html等供你快速的匹配内容

依靠高度封装的api,试着写下response.你能轻松的知道接下来可以做什么。

或者转到使用文档,详细的看看Elise的使用吧

构建指北

Elise框架使用maven构建,并使用大量jdk8特性,请保证你的jdk版本为8以上。

获取源码:

git clone https://github.com/zidoshare/Elise.git

cd Elise

因为作者是使用idea进行开发,所以推荐的开发编辑器为IntelliJ IDEA。

如果你在其他编辑器中开发,请确保你的编辑器中的配置文件/构建文件/缓存等不会出现在提交目录中。这可以在.gitignore文件中进行设置,也欢迎提交类似的pr

状态

进行中(每天都在努力的编码中)…一个人的力量有限,希望有人能加入:smile:

目前还没能达到正式版本的状态。不过已经能基本保证正常运行,可以自行clone代码构建运行。

开发路线参考 ROADMAP.md

贡献

行为准则请参阅CODE_OF_CONDUCT.md

请查看贡献说明

交流反馈

问题和建议反馈:

Github issues

邮箱: wuhongxu1208@gmail.com

感谢

本项目的开发离不开前辈的探索,许多思想理念也来自于其他框架: