导航菜单

软件工程/数据分析与挖掘
课程进度 56% · 第5/8章5/8章 · 标签 1/2
1

Spark SQL分析

Spark SQL 提供 DataFrame 和 SQL 两种方式对结构化数据进行查询分析。

python
1
df.createOrReplaceTempView('users')
2
spark.sql('SELECT COUNT(*) FROM users').show()
2

机器学习与挖掘

PySpark MLlib 提供了丰富的机器学习算法库,支持分类、回归、聚类等任务。

python
1
from pyspark.ml.classification import LogisticRegression
2
lr = LogisticRegression()
3
model = lr.fit(df)