2015年3月25日 星期三

[Apache Spark] Spark SQL 1.3.0 簡介及心得



SPARK SQL 1.3.0 有了重大的改變,將原本的SCHEMA RDD轉成 DATAFRAME,發展方向也更加明確,這是綜合一些資源和嘗試的投影片,給大家參考,也請不吝指教.
幾個綜合的心得:


  1. 透過SPARK SQL簡化寫code整理資料的過程,SQL已經將流程優化,有更佳的效率和閱讀性.
  2. 和HIVE以及一些資料格式有更深的結合,讓SPARK讀取資料同時可以同時讀取欄位,方便資料分析作業.
  3. 透過JDBC讓外部利用SPARK讀取資料,或是用SPARK讀取外部資料庫.
  4. SPARK SQL成為ML作業中的一環,透過PIPELINE和ML結合.
  5. 和PATHON的結合更進一步,DATAFRAME可以直接轉成PANDAS的資料結構,方便後續的視覺化或其他分析.


沒有留言:

張貼留言