sparksql读取数据库问题

发表于 2019-04-18 | 分类于 sparksql |

| 字数统计: 110 | 阅读时长 ≈ 1

spark jdbc方式读取数据库，每个excutor都会去拉数据？

说明：该问题来源spark技术分享朋友群

spark.read("jdbc")
  .option("url", url)
  .option("dbtable", "pets")
  .option("user", user)
  .option("password", password)
  .option("numPartitions", 10)
  .option("partitionColumn", "owner_id")
  .option("lowerBound", 1)
  .option("upperBound", 10000)
  .load()

这种一般会转换为

SELECT * FROM pets WHERE owner_id >= 1 and owner_id < 1000
SELECT * FROM pets WHERE owner_id >= 1000 and owner_id < 2000
SELECT * FROM pets WHERE owner_id >= 2000 and owner_id < 3000
...

本文标题:sparksql读取数据库问题

文章作者:tang

发布时间:2019年04月18日 - 16:04

最后更新:2019年04月18日 - 16:04

原始链接:https://tgluon.github.io/2019/04/18/sparksql读取数据库问题/

许可协议: 署名-非商业性使用-禁止演绎 4.0 国际转载请保留原文链接及作者。

-------------本文结束感谢您的阅读-------------

分享到：收藏夹复制网址邮件微信 QQ空间腾讯微博豆瓣一键分享更多