课程进度 56% · 第5/8章第5/8章 · 标签 1/2
— 1 —
Spark SQL分析
Spark SQL 提供 DataFrame 和 SQL 两种方式对结构化数据进行查询分析。
python
1
df.createOrReplaceTempView('users')
2
spark.sql('SELECT COUNT(*) FROM users').show()
— 2 —
机器学习与挖掘
PySpark MLlib 提供了丰富的机器学习算法库,支持分类、回归、聚类等任务。
python
1
from pyspark.ml.classification import LogisticRegression
2
lr = LogisticRegression()
3
model = lr.fit(df)