Как заполнить карту[строка,фрейм данных] в виде столбца в фрейме данных в scala

Question 1

У меня есть Map[String, Dataframe]. Я хочу объединить все данные внутри этой карты в один фрейм данных. Может ли фрейм данных иметь столбец типа данных карты?

def sample(dfs : Map[String,Dataframe]): Dataframe =
{
.........
}

Пример:

DF1

id name age
1  aaa  23
2  bbb  34

DF2

game  time  score
ludo  10    20
rummy 30    40

Я передаю вышеупомянутые два DFS в качестве карты функции. Затем поместите данные каждого кадра данных в один столбец выходного кадра данных в формате json.

выход DF

+---------------------------------------------------------------------------------------+
| column1                                                                              |
+---------------------------------------------------------------------------------------+
| [{"id":"1","name":"aaa","age":"23"},{"id":21","name":"bbb","age":"24"}]               |
| [{"game":"ludo","time":"10","score":"20"},{"game":"rummy","time":"30","score":"40"}]  |
+---------------------------------------------------------------------------------------+

Question 2

Вы просите сгенерировать одну строку на кадр данных. Будьте осторожны, если один из фреймов данных достаточно велик, чтобы он не мог содержаться в одном исполнителе, этот код сломается.

Давайте сначала сгенерируем данные и карту dfs типа Map[String, DataFrame].

val df1 = Seq((1, "aaa", 23), (2, "bbb", 34)).toDF("id", "name", "age")
val df2 = Seq(("ludo", 10, 20), ("rummy", 10, 40)).toDF("game", "time", "score")
dfs = Seq(df1, df2)

Затем для каждого кадра данных карты мы создаем два столбца. big_map связывает имя каждого столбца фрейма данных с его значением (приведенным в строке, чтобы иметь согласованный тип). df просто содержит имя фрейма данных. Затем мы объединяем все фреймы данных с reduce и сгруппировать по name (это та часть, где каждый отдельный кадр данных заканчивается полностью в одной строке и, следовательно, одним исполнителем).

dfs
    .toSeq
    .map{ case (name, df) => df
        .select(map(
             df.columns.flatMap(c => Seq(lit(c), col(c).cast("string"))) : _*
        ) as "big_map")
        .withColumn("df", lit(name))}
    .reduce(_ union _)
    .groupBy("df")
    .agg(collect_list('big_map) as "column1")
    .show(false)

+---+-----------------------------------------------------------------------------------+
|df |column1                                                                            |
+---+-----------------------------------------------------------------------------------+
|df0|[{id -> 1, name -> aaa, age -> 23}, {id -> 2, name -> bbb, age -> 34}]             |
|df1|[{game -> ludo, time -> 10, score -> 20}, {game -> rummy, time -> 10, score -> 40}]|
+---+-----------------------------------------------------------------------------------+

Question 3

Вот решение, специфичное для вашего варианта использования:

import org.apache.spark.sql._

def sample(dfs : Map[String, DataFrame])(implicit spark: SparkSession): DataFrame =
  dfs
    .values
    .foldLeft(spark.emptyDataFrame)((acc, df) => acc.union(df))

Сеанс spark необходим для создания пустого накопителя фреймов данных для складывания.

В качестве альтернативы, если вы можете гарантировать Map не пусто.

def sample(dfs : Map[String, DataFrame]): DataFrame =
  dfs
    .values
    .reduce((acc, df) => acc.union(df))

Oli · Answer 1 · 2021-11-24T07:05:52

Вы просите сгенерировать одну строку на кадр данных. Будьте осторожны, если один из фреймов данных достаточно велик, чтобы он не мог содержаться в одном исполнителе, этот код сломается.

Давайте сначала сгенерируем данные и карту dfs типа Map[String, DataFrame].

val df1 = Seq((1, "aaa", 23), (2, "bbb", 34)).toDF("id", "name", "age")
val df2 = Seq(("ludo", 10, 20), ("rummy", 10, 40)).toDF("game", "time", "score")
dfs = Seq(df1, df2)

Затем для каждого кадра данных карты мы создаем два столбца. big_map связывает имя каждого столбца фрейма данных с его значением (приведенным в строке, чтобы иметь согласованный тип). df просто содержит имя фрейма данных. Затем мы объединяем все фреймы данных с reduce и сгруппировать по name (это та часть, где каждый отдельный кадр данных заканчивается полностью в одной строке и, следовательно, одним исполнителем).

dfs
    .toSeq
    .map{ case (name, df) => df
        .select(map(
             df.columns.flatMap(c => Seq(lit(c), col(c).cast("string"))) : _*
        ) as "big_map")
        .withColumn("df", lit(name))}
    .reduce(_ union _)
    .groupBy("df")
    .agg(collect_list('big_map) as "column1")
    .show(false)

+---+-----------------------------------------------------------------------------------+
|df |column1                                                                            |
+---+-----------------------------------------------------------------------------------+
|df0|[{id -> 1, name -> aaa, age -> 23}, {id -> 2, name -> bbb, age -> 34}]             |
|df1|[{game -> ludo, time -> 10, score -> 20}, {game -> rummy, time -> 10, score -> 40}]|
+---+-----------------------------------------------------------------------------------+

gatear · Answer 2 · 2021-11-23T14:30:01

Вот решение, специфичное для вашего варианта использования:

import org.apache.spark.sql._

def sample(dfs : Map[String, DataFrame])(implicit spark: SparkSession): DataFrame =
  dfs
    .values
    .foldLeft(spark.emptyDataFrame)((acc, df) => acc.union(df))

Сеанс spark необходим для создания пустого накопителя фреймов данных для складывания.

В качестве альтернативы, если вы можете гарантировать Map не пусто.

def sample(dfs : Map[String, DataFrame]): DataFrame =
  dfs
    .values
    .reduce((acc, df) => acc.union(df))

не могли бы вы, пожалуйста, проверить вопрос, который я добавил в качестве примера сейчас.Каждый входной кадр данных ,который я получаю, имеет разные схемы, поэтому я хочу, чтобы данные всего входного кадра данных заполнялись в виде столбца, поэтому мой выходной кадр данных содержит данные каждого входного кадра данных в одном столбце

Как заполнить карту[строка,фрейм данных] в виде столбца в фрейме данных в scala

Вопрос

Лучший ответ

На других языках

Эта страница на других языках

Популярное в этой категории

Популярные вопросы в этой категории