티스토리 뷰

이번에 NAVER에서 진행하는 부스트코스 Data Science 분야에 지원해서 공부하게 되었다. 무료 강의

https://www.boostcourse.org/ds112

 

파이썬으로 시작하는 데이터 사이언스

부스트코스 무료 강의

www.boostcourse.org

강의 요약 및 팀미션을 진행하면서 고민해본 거리들을 정리할 예정이다.

1. 데이터 분석 환경 구성 

데이터분석은 활용될 수 있는 범위가 굉장히 넓다. 공학, 의학, 교육 등 요즘 시대에서는 쓰이지 않는 곳이 없다. 이 강의는 파이썬을 기반으로 pandas 및 numpy를 활용하면서 기초적인 데이터분석을 배우는 강의이다. 이후 본인이 직접 연구하고 싶은 분야가 생기면 공공데이터 포털에서 자료를 수집해서 직접 모델 구성을 할 수도 있다. 

https://www.data.go.kr/

 

공공데이터 포털

국가에서 보유하고 있는 다양한 데이터를『공공데이터의 제공 및 이용 활성화에 관한 법률(제11956호)』에 따라 개방하여 국민들이 보다 쉽고 용이하게 공유•활용할 수 있도록 공공데이터(Datase

www.data.go.kr

아나콘다 설치로 강의가 진행된다. 아나콘다는 가상 개발 환경으로 파이썬 관련 jupyter, pandas, numpy, tensorflow 등을 사용할 수 있다.

나는 이미 딥러닝 관련 공부를 통해 미리 설치해놓아서 딱히 설치할 필요는 없었다. 설치 안하신 분들은 강의를 참고하면 좋을 것 같다. 이 강의에서는 jupyter 노트북을 활용하는데, google colab을 이용해서 강의를 수강할 수 있다.

강의에서는 주피터 사용법을 간단히 알려주고 있다.

 

Markdown 
#을 추가할수록 markdown 크기가 작아진다. 코드와 함께 문서화할 수 있다. ''' ''' 을 이용해서 여러 줄 설명가능 

Shit + Enter 키로 셀이 실행되고 다음셀로 이동

Enter 키를 누르면 다시 편집 상태

Esc 키를 누르고 a키 누르면 위에 셀 추가 / b키 누르면 아래에 셀 추가 / dd키 누르면 셀 삭제

m키를 누르면 문서 셀로 변경 / y키를 누르면 코드 셀로 변경 / h키로 더 많은 단축키 확인 가능

내가 작성한 코드가 몇 번째 줄인지 확인 : View Toggle Line Numbers 선택

RUN / 옆의 네모 로 stop 가능

Kernel로 output 지울 수 있음

 

Nbextensions

컨텐츠에 대한 index 쉽게 확인 가능


2. 데이터 분석 준비하기

2-1

데이터 분석에서 쓰일 파이썬 기초 유주로 설명해주셨다. 솔직히 파이썬을 제대로 한 번 배우신 후에 이 강의를 시작하는 것을 추천한다. 기본이 탄탄해야지 이후 데이터를 처리할 때 어떤 방식으로 처리해야지 효율적으로, 정확하게 할 수 있을지 파악이 잘 되기 때문이다. 강의 보면서 새롭게 remind 시키고 싶은 것들을 밑에 정리할 것이다.

 

  • " ".join(리스트) 를 사용하면 리스트를 공백 문자열을 연결할 수 있다. 리스트로 분리된 문자열을 다시 연결할 수도 있다.
  • in 으로 리스트에 해당 string이 들어 있는지 알 수 있다.

2-2

이제 pandas에 대해 알아볼 것이다.

https://pandas.pydata.org/docs/user_guide/10min.html

 

10 minutes to pandas — pandas 2.1.1 documentation

10 minutes to pandas This is a short introduction to pandas, geared mainly for new users. You can see more complex recipes in the Cookbook. Customarily, we import as follows: In [1]: import numpy as np In [2]: import pandas as pd Basic data structures in p

pandas.pydata.org

https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf

에서 pandas 의 기본을 알 수 있다.

Jupyter 노트북으로 pandas 연습해보니 전에 했던 데이터 분석 관련 프로젝트 진행한 것이 생각나면서 복습도 되고 좋았다.추가로 pandas 관련 좋은 자료가 있으면 업데이트할 예정이다.

 

2-3

매우매우 중요한 경로 설정을 알려주신다.

 

  1. 절대 경로
    어떠한 웹페이지나 파일이 가진 고유한 경로로 최상위 디렉토리가 포함된 경로
    ex1) file:///Users/user/Downloads/
    ex2) C:\user\documents

상대 경로
현재 위치한 곳을 기준으로 하는 경로
/는 root
./는 현재 위치
../는 현재 위치의 상위 폴더
../../는 두 단계 위의 상위 폴더

#실습 파일 경로 불러오기
%pwd
#또는
import os
os.getcwd()

csv 파일을 주로 이용해 데이터분석을 진행한다.

pd.read_csv("파일 이름", encoding="cp949") #한글 파일을 읽어올 때 encoding 이용

만약 다른 폴더에 들어 있다면 반드시 "data/파일이름" 와 같이 폴더를 지정해주고 파일을 불러와야 한다.

from glob import glob

file_name = glob("data/*.csv")
file_name

파일 이름이 길 경우 오타를 방지하기 위해서 위의 코드를 이용해 print된 파일 이름을 이용할 수 있다. file 여러 개일 경우 list 로 저장된다.

 

공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
TAG
more
«   2024/07   »
1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30 31
글 보관함