Я хочу воспроизвести приведенный ниже код, используя функции фрейма данных pyspark вместо SQL-запроса.
spark.sql("select date from walmart_stock order by high desc limit 1").show()
Я хочу воспроизвести приведенный ниже код, используя функции фрейма данных pyspark вместо SQL-запроса.
spark.sql("select date from walmart_stock order by high desc limit 1").show()
Вот код, если вы начинаете с связанного CSV-файла. Вы должны распознать функции SQL. Обратите внимание, что мы используем inferSchema
опция для прямого разбора чисел на двойные и получения правильного порядка (это не будет работать, как ожидалось, с типом строки по умолчанию). Другим способом было бы привести столбец после чтения CSV.
spark.read
.option("header", "true")
.option("inferSchema", "true")
.csv("walmart_stock.csv")
.orderBy(f.col("High"), desc=True)
.limit(1)
.select("Date")
.show()
что дает
+----------+
| Date|
+----------+
|2015-11-13|
+----------+