Fork me on GitHub

sparksql读取数据库问题

spark jdbc方式读取数据库,每个excutor都会去拉数据?

说明:该问题来源spark技术分享朋友群

1
2
3
4
5
6
7
8
9
10
spark.read("jdbc")
.option("url", url)
.option("dbtable", "pets")
.option("user", user)
.option("password", password)
.option("numPartitions", 10)
.option("partitionColumn", "owner_id")
.option("lowerBound", 1)
.option("upperBound", 10000)
.load()

这种一般会转换为

1
2
3
4
SELECT * FROM pets WHERE owner_id >= 1 and owner_id < 1000
SELECT * FROM pets WHERE owner_id >= 1000 and owner_id < 2000
SELECT * FROM pets WHERE owner_id >= 2000 and owner_id < 3000
...

本文标题:sparksql读取数据库问题

文章作者:tang

发布时间:2019年04月18日 - 16:04

最后更新:2019年04月18日 - 16:04

原始链接:https://tgluon.github.io/2019/04/18/sparksql读取数据库问题/

许可协议: 署名-非商业性使用-禁止演绎 4.0 国际 转载请保留原文链接及作者。

-------------本文结束感谢您的阅读-------------