'Data Engineering' 카테고리의 글 목록

Shortcut

Recent Posts

Tags more

Today

Total

관리 메뉴

목록Data Engineering (2)

공부하는 스누피

[pyspark] DataFrame에서 json 문자열을 컬럼으로 바꾸기

- Spark 2.1x부터 사용 가능한 from_json을 활용한다. - json 데이터를 위한 스키마를 먼저 정의해 두어야 한다. from pyspark.sql.types import StructType, StructField, StringType from pyspark.sql.functions import from_json, col df = spark.createDataFrame(dict_data) # json 데이터를 위한 스키마를 정의한다. schema = StructType( [ StructField('key1', StringType(), True), StructField('key1', StringType(), True), ] ) # from_json으로 json 데이터를 스키마에 맞추어 dat..

Data Engineering 2022. 4. 20. 19:45

[Spark] DataFrame 다루기

- Python 환경 ## DataFrame이란? 정형화된 scheme을 갖고 있는 Spark 데이터 구조. ## Dictionary를 DataFrame으로 만들기 data = [{'color': 'yellow', 'weight': 200}, {'color': 'yellow', 'weight': 200}] df = spark.createDataFrame(data) ## DataFrame 보기 # table 형태로 dataframe의 모든 데이터를 보여 준다. df.show() # dataframe에서 특정 인덱스의 데이터를 가져온다. df.take(index) # data schema를 볼 수 있다. df.printSchema() ## 데이터 필터링하기 - 필터링은 select * where~과 같은 역..

Data Engineering 2022. 4. 20. 19:39

Prev 1 Next

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

공부하는 스누피

목록Data Engineering (2)

공부하는 스누피

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역