목록Data Engineering (2)
공부하는 스누피
- Spark 2.1x부터 사용 가능한 from_json을 활용한다. - json 데이터를 위한 스키마를 먼저 정의해 두어야 한다. from pyspark.sql.types import StructType, StructField, StringType from pyspark.sql.functions import from_json, col df = spark.createDataFrame(dict_data) # json 데이터를 위한 스키마를 정의한다. schema = StructType( [ StructField('key1', StringType(), True), StructField('key1', StringType(), True), ] ) # from_json으로 json 데이터를 스키마에 맞추어 dat..
- Python 환경 ## DataFrame이란? 정형화된 scheme을 갖고 있는 Spark 데이터 구조. ## Dictionary를 DataFrame으로 만들기 data = [{'color': 'yellow', 'weight': 200}, {'color': 'yellow', 'weight': 200}] df = spark.createDataFrame(data) ## DataFrame 보기 # table 형태로 dataframe의 모든 데이터를 보여 준다. df.show() # dataframe에서 특정 인덱스의 데이터를 가져온다. df.take(index) # data schema를 볼 수 있다. df.printSchema() ## 데이터 필터링하기 - 필터링은 select * where~과 같은 역..