SparkStreaming整合Kafka過程詳解

2023-10-31 22:00:30

Spark Streaming連線kafka 的兩種方式

Receiver based Approah

KafkaUtils.createDstream基於接收器方式，消費Kafka資料，已淘汰
Receiver作為Task執行在Executor等待資料，一個Receiver效率低，需要開啟多個，再手動合併資料，很麻煩
Receiver掛了，可能丟失資料，需要開啟WAL(預寫紀錄檔)保證資料安全，效率低
通過Zookeeper來連線kafka，offset儲存再zookeeper中
spark消費的時候為了保證資料不丟也會儲存一份offset，可能出現資料不一致

Direct Approach

KafkaUtils.createDirectStream直連方式，streaming中每個批次的job直接呼叫Simple Consumer API獲取對應Topic資料
Direct方式直接連線kafka分割區獲取資料，提高了並行能力
Direct方式呼叫kafka低階API，offset自己儲存和維護，預設由spark維護在checkpoint中
offset也可以自己手動維護，儲存在mysql/redis中

// 從kafka載入資料
val kafkaParams = Map[String, Object](
  "bootstrap.servers" -> "hadoop102:9092",//kafka叢集地址
  "key.deserializer" -> classOf[StringDeserializer],//key的反序列化規則
  "value.deserializer" -> classOf[StringDeserializer],//value的反序列化規則
  "group.id" -> "sparkdemo",//消費者組名稱
  //earliest:表示如果有offset記錄從offset記錄開始消費,如果沒有從最早的訊息開始消費
  //latest:表示如果有offset記錄從offset記錄開始消費,如果沒有從最後/最新的訊息開始消費
  //none:表示如果有offset記錄從offset記錄開始消費,如果沒有就報錯
  "auto.offset.reset" -> "latest",
  "auto.commit.interval.ms"->"1000",//自動提交的時間間隔
  "enable.auto.commit" -> (true: java.lang.Boolean)//是否自動提交
)
val topics = Array("spark_kafka")//要訂閱的主題
//使用工具類從Kafka中消費訊息
val kafkaDS: InputDStream[ConsumerRecord[String, String]] = KafkaUtils.createDirectStream[String, String](
  ssc,
  LocationStrategies.PreferConsistent, //位置策略,使用原始碼中推薦的
  ConsumerStrategies.Subscribe[String, String](topics, kafkaParams) //消費策略,使用原始碼中推薦的
)

程式碼展示

自動提交偏移量

object kafka_Demo01 {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setMaster("local[*]").setAppName("kafka_Demo01")
    val sc = new SparkContext(conf)
    val ssc = new StreamingContext(sc, Seconds(5))
    ssc.checkpoint("data/ckp")
    // 從kafka載入資料
    val kafkaParams = Map[String, Object](
      "bootstrap.servers" -> "hadoop102:9092",//kafka叢集地址
      "key.deserializer" -> classOf[StringDeserializer],//key的反序列化規則
      "value.deserializer" -> classOf[StringDeserializer],//value的反序列化規則
      "group.id" -> "sparkdemo",//消費者組名稱
      //earliest:表示如果有offset記錄從offset記錄開始消費,如果沒有從最早的訊息開始消費
      //latest:表示如果有offset記錄從offset記錄開始消費,如果沒有從最後/最新的訊息開始消費
      //none:表示如果有offset記錄從offset記錄開始消費,如果沒有就報錯
      "auto.offset.reset" -> "latest",
      "auto.commit.interval.ms"->"1000",//自動提交的時間間隔
      "enable.auto.commit" -> (true: java.lang.Boolean)//是否自動提交
    )
    val topics = Array("spark_kafka")//要訂閱的主題
    //使用工具類從Kafka中消費訊息
    val kafkaDS: InputDStream[ConsumerRecord[String, String]] = KafkaUtils.createDirectStream[String, String](
      ssc,
      LocationStrategies.PreferConsistent, //位置策略,使用原始碼中推薦的
      ConsumerStrategies.Subscribe[String, String](topics, kafkaParams) //消費策略,使用原始碼中推薦的
    )
    // 處理訊息
    val infoDS = kafkaDS.map(record => {
      val topic = record.topic()
      val partition = record.partition()
      val offset = record.offset()
      val key = record.key()
      val value = record.value()
      val info: String = s"""topic:${topic}, partition:${partition}, offset:${offset}, key:${key}, value:${value}"""
      info
    })
    // 輸出
    infoDS.print()
    ssc.start()
    ssc.awaitTermination()
    ssc.stop(true, true)
  }
}

手動提交

提交程式碼

// 處理訊息
//注意提交的時機:應該是消費完一小批就該提交一次offset,而在DStream一小批的體現是RDD
kafkaDS.foreachRDD(rdd => {
  rdd.foreach(record => {
    val topic = record.topic()
    val partition = record.partition()
    val offset = record.offset()
    val key = record.key()
    val value = record.value()
    val info: String = s"""topic:${topic}, partition:${partition}, offset:${offset}, key:${key}, value:${value}"""
    info
    println("消費" + info)
  })
  //獲取rdd中offset相關的資訊:offsetRanges裡面就包含了該批次各個分割區的offset資訊
  val offsetRanges: Array[OffsetRange] = rdd.asInstanceOf[HasOffsetRanges].offsetRanges
  //提交
  kafkaDS.asInstanceOf[CanCommitOffsets].commitAsync(offsetRanges)
  println("當前批次的資料已消費並手動提交")
})

完整程式碼

object kafka_Demo02 {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setMaster("local[*]").setAppName("kafka_Demo01")
    val sc = new SparkContext(conf)
    val ssc = new StreamingContext(sc, Seconds(5))
    ssc.checkpoint("data/ckp")
    // 從kafka載入資料
    val kafkaParams = Map[String, Object](
      "bootstrap.servers" -> "hadoop102:9092",//kafka叢集地址
      "key.deserializer" -> classOf[StringDeserializer],//key的反序列化規則
      "value.deserializer" -> classOf[StringDeserializer],//value的反序列化規則
      "group.id" -> "sparkdemo",//消費者組名稱
      //earliest:表示如果有offset記錄從offset記錄開始消費,如果沒有從最早的訊息開始消費
      //latest:表示如果有offset記錄從offset記錄開始消費,如果沒有從最後/最新的訊息開始消費
      //none:表示如果有offset記錄從offset記錄開始消費,如果沒有就報錯
      "auto.offset.reset" -> "latest",
//      "auto.commit.interval.ms"->"1000",//自動提交的時間間隔
      "enable.auto.commit" -> (false: java.lang.Boolean)//是否自動提交
    )
    val topics = Array("spark_kafka")//要訂閱的主題
    //使用工具類從Kafka中消費訊息
    val kafkaDS: InputDStream[ConsumerRecord[String, String]] = KafkaUtils.createDirectStream[String, String](
      ssc,
      LocationStrategies.PreferConsistent, //位置策略,使用原始碼中推薦的
      ConsumerStrategies.Subscribe[String, String](topics, kafkaParams) //消費策略,使用原始碼中推薦的
    )
    // 處理訊息
    //注意提交的時機:應該是消費完一小批就該提交一次offset,而在DStream一小批的體現是RDD
    kafkaDS.foreachRDD(rdd => {
      rdd.foreach(record => {
        val topic = record.topic()
        val partition = record.partition()
        val offset = record.offset()
        val key = record.key()
        val value = record.value()
        val info: String = s"""topic:${topic}, partition:${partition}, offset:${offset}, key:${key}, value:${value}"""
        info
        println("消費" + info)
      })
      //獲取rdd中offset相關的資訊:offsetRanges裡面就包含了該批次各個分割區的offset資訊
      val offsetRanges: Array[OffsetRange] = rdd.asInstanceOf[HasOffsetRanges].offsetRanges
      //提交
      kafkaDS.asInstanceOf[CanCommitOffsets].commitAsync(offsetRanges)
      println("當前批次的資料已消費並手動提交")
    })
    // 輸出
    kafkaDS.print()
    ssc.start()
    ssc.awaitTermination()
    ssc.stop(true, true)
  }
}

到此這篇關於SparkStreaming整合Kafka過程詳解的文章就介紹到這了,更多相關SparkStreaming整合Kafka內容請搜尋it145.com以前的文章或繼續瀏覽下面的相關文章希望大家以後多多支援it145.com！

SparkStreaming整合Kafka過程詳解

目錄

Spark Streaming連線kafka 的兩種方式

Receiver based Approah

Direct Approach

程式碼展示

自動提交偏移量

手動提交

熱門文章