<em>Mac</em>Book项目 2009年学校开始实施<em>Mac</em>Book项目,所有师生配备一本<em>Mac</em>Book,并同步更新了校园无线网络。学校每周进行电脑技术更新,每月发送技术支持资料,极大改变了教学及学习方式。因此2011
2021-06-01 09:32:01
Spark SQL是Spark的一個模組,用於處理結構化的資料,它提供了一個資料抽象DataFrame(最核心的程式設計抽象就是DataFrame),並且SparkSQL作為分散式SQL查詢引擎。
Spark SQL就是將SQL轉換成一個任務,提交到叢集上執行,類似於Hive的執行方式。
將Spark SQL轉化為RDD,然後提交到叢集執行。
(1)容易整合,Spark SQL已經整合在Spark中
(2)提供了統一的資料存取方式:JSON、CSV、JDBC、Parquet等都是使用統一的方式進行存取
(3)相容 Hive
(4)標準的資料連線:JDBC、ODBC
package sql import org.apache.avro.ipc.specific.Person import org.apache.spark import org.apache.spark.rdd.RDD import org.apache.spark.sql import org.apache.spark.sql.catalyst.InternalRow import org.apache.spark.sql.{DataFrame, Dataset, Row, SparkSession} import org.junit.Test class Intro { @Test def dsIntro(): Unit ={ val spark: SparkSession = new sql.SparkSession.Builder() .appName("ds intro") .master("local[6]") .getOrCreate() //匯入隱算是shi轉換 import spark.implicits._ val sourceRDD: RDD[Person] =spark.sparkContext.parallelize(Seq(Person("張三",10),Person("李四",15))) val personDS: Dataset[Person] =sourceRDD.toDS(); //personDS.printSchema()列印出錯資訊 val resultDS: Dataset[Person] =personDS.where('age>10) .select('name,'age) .as[Person] resultDS.show() } @Test def dfIntro(): Unit ={ val spark: SparkSession =new SparkSession.Builder() .appName("ds intro") .master("local") .getOrCreate() import spark.implicits._ val sourceRDD: RDD[Person] = spark.sparkContext.parallelize(Seq(Person("張三",10),Person("李四",15))) val df: DataFrame = sourceRDD.toDF()//隱shi轉換 df.createOrReplaceTempView("person")//建立表 val resultDF: DataFrame =spark.sql("select name from person where age>=10 and age<=20") resultDF.show() } @Test def database1(): Unit ={ //1.建立sparkSession val spark: SparkSession =new SparkSession.Builder() .appName("database1") .master("local[6]") .getOrCreate() //2.匯入引入shi子轉換 import spark.implicits._ //3.演示 val sourceRDD: RDD[Person] =spark.sparkContext.parallelize(Seq(Person("張三",10),Person("李四",15))) val dataset: Dataset[Person] =sourceRDD.toDS() //Dataset 支援強型別的API dataset.filter(item => item.age >10).show() //Dataset 支援若弱型別的API dataset.filter('age>10).show() //Dataset 可以直接編寫SQL表示式 dataset.filter("age>10").show() } @Test def database2(): Unit ={ val spark: SparkSession = new SparkSession.Builder() .master("local[6]") .appName("database2") .getOrCreate() import spark.implicits._ val dataset: Dataset[Person] =spark.createDataset(Seq(Person("張三",10),Person("李四",20))) //無論Dataset中放置的是什麼型別的物件,最終執行計劃中的RDD上都是internalRow //直接獲取到已經分析和解析過得Dataset的執行計劃,從中拿到RDD val executionRdd: RDD[InternalRow] =dataset.queryExecution.toRdd //通過將Dataset底層的RDD通過Decoder轉成了和Dataset一樣的型別RDD val typedRdd:RDD[Person] = dataset.rdd println(executionRdd.toDebugString) println() println() println(typedRdd.toDebugString) } @Test def database3(): Unit = { //1.建立sparkSession val spark: SparkSession = new SparkSession.Builder() .appName("database1") .master("local[6]") .getOrCreate() //2.匯入引入shi子轉換 import spark.implicits._ val dataFrame: DataFrame = Seq(Person("zhangsan", 15), Person("lisi", 20)).toDF() //3.看看DataFrame可以玩出什麼花樣 //select name from... dataFrame.where('age > 10) .select('name) .show() } // @Test // def database4(): Unit = { // //1.建立sparkSession // val spark: SparkSession = new SparkSession.Builder() // .appName("database1") // .master("local[6]") // .getOrCreate() // //2.匯入引入shi子轉換 // import spark.implicits._ // val personList=Seq(Person("zhangsan",15),Person("lisi",20)) // // //1.toDF // val df1: DataFrame =personList.toDF() // val df2: DataFrame =spark.sparkContext.parallelize(personList).toDF() // //2.createDataFrame // val df3: DataFrame =spark.createDataFrame(personList) // // //3.read // val df4: DataFrame =spark.read.csv("") // df4.show() // } //toDF()是轉成DataFrame,toDs是轉成Dataset // DataFrame就是Dataset[Row] 代表弱型別的操作,Dataset代表強型別的操作,中的型別永遠是row,DataFrame可以做到執行時型別安全,Dataset可以做到 編譯時和執行時都安全 @Test def database4(): Unit = { //1.建立sparkSession val spark: SparkSession = new SparkSession.Builder() .appName("database1") .master("local[6]") .getOrCreate() //2.匯入引入shi子轉換 import spark.implicits._ val personList=Seq(Person("zhangsan",15),Person("lisi",20)) //DataFrame代表弱型別操作是編譯時不安全 val df: DataFrame =personList.toDF() //Dataset是強型別的 val ds: Dataset[Person] =personList.toDS() ds.map((person:Person) =>Person(person.name,person.age)) } @Test def row(): Unit ={ //1.Row如何建立,它是什麼 //row物件必須配合Schema物件才會有列名 val p: Person =Person("zhangsan",15) val row: Row =Row("zhangsan",15) //2.如何從row中獲取資料 row.getString(0) row.getInt(1) //3.Row也是樣例類、 row match { case Row(name,age) => println(name,age) } } } case class Person(name: String, age: Int)
到此這篇關於深入瞭解SparkSQL的運用及方法的文章就介紹到這了,更多相關SparkSQL運用內容請搜尋it145.com以前的文章或繼續瀏覽下面的相關文章希望大家以後多多支援it145.com!
相關文章
<em>Mac</em>Book项目 2009年学校开始实施<em>Mac</em>Book项目,所有师生配备一本<em>Mac</em>Book,并同步更新了校园无线网络。学校每周进行电脑技术更新,每月发送技术支持资料,极大改变了教学及学习方式。因此2011
2021-06-01 09:32:01
综合看Anker超能充系列的性价比很高,并且与不仅和iPhone12/苹果<em>Mac</em>Book很配,而且适合多设备充电需求的日常使用或差旅场景,不管是安卓还是Switch同样也能用得上它,希望这次分享能给准备购入充电器的小伙伴们有所
2021-06-01 09:31:42
除了L4WUDU与吴亦凡已经多次共事,成为了明面上的厂牌成员,吴亦凡还曾带领20XXCLUB全队参加2020年的一场音乐节,这也是20XXCLUB首次全员合照,王嗣尧Turbo、陈彦希Regi、<em>Mac</em> Ova Seas、林渝植等人全部出场。然而让
2021-06-01 09:31:34
目前应用IPFS的机构:1 谷歌<em>浏览器</em>支持IPFS分布式协议 2 万维网 (历史档案博物馆)数据库 3 火狐<em>浏览器</em>支持 IPFS分布式协议 4 EOS 等数字货币数据存储 5 美国国会图书馆,历史资料永久保存在 IPFS 6 加
2021-06-01 09:31:24
开拓者的车机是兼容苹果和<em>安卓</em>,虽然我不怎么用,但确实兼顾了我家人的很多需求:副驾的门板还配有解锁开关,有的时候老婆开车,下车的时候偶尔会忘记解锁,我在副驾驶可以自己开门:第二排设计很好,不仅配置了一个很大的
2021-06-01 09:30:48
不仅是<em>安卓</em>手机,苹果手机的降价力度也是前所未有了,iPhone12也“跳水价”了,发布价是6799元,如今已经跌至5308元,降价幅度超过1400元,最新定价确认了。iPhone12是苹果首款5G手机,同时也是全球首款5nm芯片的智能机,它
2021-06-01 09:30:45