데이터 분석/데이터분석 연습10 pandas 라이브러리 활용한 데이터 분석 ※ 이 글은 모두의 데이터 분석 with 파이썬 책의 예제를 연습한 내용입니다. 1. 위키피디아 데이터 엑셀로 저장하기 위키피디아에서 제공하는 국가별 하계 및 동계 올림픽 메달 획득 기록을 엑셀로 저장한다. 여기서 read_html 함수는 웹페이지에서 테이블 형태의 데이터를 추출하는 함수이다. header 속성은 헤더로 쓸 행을 지정할 때 사용하며, index_col은 index에 사용할 컬럼을 지정할 때 사용한다. import pandas as pd df = pd.read_html("https://en.wikipedia.org/wiki/All-time_Olympic_Games_medal_table", header=0, index_col=0) df[1] 코드를 실행하면 다음과 같이 나온다. 하계올림픽에 .. 2020. 5. 16. numpy로 우리 동네 인구구조와 비슷한 곳 찾기 ※ 이 글은 모두의 데이터 분석 with 파이썬 책의 예제를 연습한 내용입니다. 1. 프로젝트 구상하기 전국에서 삼성1동의 연령별 인구 구조와 가장 형태가 비슷한 지역은 어디일까? 위 질문에 답하기 위해 어떻게 데이터를 갖고 와서 코드로 나타낼지를 생각해야 한다. 먼저 인구 데이터는 지난번 인구 공공데이터 시각화 글에서 가져왔었다. 2020/05/08 - [데이터 분석/데이터분석 연습] - 인구 공공데이터 시각화하기 인구 공공데이터 시각화하기 ※ 이 글은 모두의 데이터 분석 with 파이썬 책의 예제를 연습한 내용입니다. 1. 인구 공공데이터 내려받기 행정안전부 홈페이지(www.mois.go.kr) 접속 후 정책자료 > 통계 > 주민등록 인구통계를 클릭� memoir-of-experience.tistor.. 2020. 5. 15. numpy 라이브러리 활용하기 ※ 이 글은 모두의 데이터 분석 with 파이썬 책의 예제를 연습한 내용입니다. 1. numpy 라이브러리 시작하기 numpy 라이브러리는 주로 숫자 데이터를 다루는데 사용한다. 가령 제곱근을 출력하는 경우 numpy라이브러리에 sqrt 함수를 쓴다. import numpy as np print(np.sqrt(2)) numpy에서는 random 관련 함수들이 여러 개 있는데, 그중 하나는 rand() 함수다. rand(n)을 실행하면 0과 1 사이에 있는 n개의 실수가 랜덤하게 생성된다. 아래 코드를 실행하면 '[0.65145146 0.80116216 0.51797316 0.01525958 0.12779482]' 식으로 결과가 출력되는데, 데이터타입은 ndarray로 n차원의 배열이다. import nu.. 2020. 5. 14. 지하철 시간대별로 데이터 시각화 ※ 이 글은 모두의 데이터 분석 with 파이썬 책의 예제를 연습한 내용입니다. 1. 데이터 정제하기 이전 글에서 다운받았던 티머니 교통정보 데이터에서 이번에는 '지하철 시간대별 이용현황' 탭을 선택하고 다른 이름으로 저장하기를 누른다. 파일명을 'subwaytime.cvs'로 저장한다. ','(콤마)를 없애고 맨 뒷열 '작업일시'를 삭제한다.(콤마 없애기가 안되는 경우 데이터를 통화에서 일반으로 바꾼다.) csv파일을 살펴보면 헤더가 두 행으로 이뤄진 것을 알 수 있다. 헤더를 제외하기 위해 next() 함수를 사용한다. 이때는 next() 함수를 두 번 사용하면 된다. 그다음으로 승하차 인원이 문자열로 되어 있으므로 정수로 바꾼다. 정수를 바꾸는 방법으로 for문 대신 map() 함수를 사용했다. m.. 2020. 5. 11. 이전 1 2 3 다음