본문 바로가기

Back-End/데이터베이스

(20)
[DB] 데이터프레임 정리 - 행/열 합치기, 결측치, 중복값, 이상치 처리 데이터프레임 행단위/열단위 합치기 행단위 합치기 import pandas as pd ### 임시 데이터 생성1 data = [["Dog", 3], ["Cat", 5], ["Tiger", 2]] index = [0, 1, 2] columns = ["동물", "나이"] df_temp1 = pd.DataFrame(data, index = index, columns = columns) ### 임시 데이터 생성2 data = [["집", 0], ["초원", 0], ["초원", 1]] index = [0, 1, 2] columns = ["사는곳", "뿔의갯수"] df_temp2 = pd.DataFrame(data, index = index, columns = columns) ### df_temp1과 df_temp2..
[DB] 워드클라우드 시각화 - KoNLPY, Okt, Counter, WordCloud 워드클라우드 - 설치준비 🐤 Java 기반으로 만들어진 라이브러리로 JDK 설치 및 환경 설정 - 환경변수 등록 (파일탐색기>내 pc 마우스 우클릭 > 속성 > 고급시스템설정 > 환경 변수 ) * JAVA_HOME : 경로 - JDK설치 폴더까지 * Path 수정 후 두개 추가 : %JAVA_HOME%, %JAVA_HOME%\bin - PC 재부팅 후 설정 확인 : command창 open 후 -> java, javac 입력 후 help 내용 나오면 성공 🐤라이브러리 설치 - nltk 설치 : 영어 형태소 분석 라이브러리(KoNLPY의 상위 라이브러리) * pip install nltk - nltk 플러그인 추가 설치(다운로드 설치 방식) → 플러그인은..
[DB] 데이터 전처리 및 시각화 - 웹크롤링(selenium), 점(분포) 그래프, 원형 그래프 웹크롤링 - 외부 파일 읽어오기 🐤 행렬데이터 처리 라이브러리 import pandas as pd 🐤 외부 파일 읽어들이기 file_path = "./data/movie_reviews.txt" # 구분자 사용해서 txt저장했을 시 구분자를 명시해줘야함 df_org = pd.read_csv(file_path, # 구분자 알려주기 delimiter = "\t", # 제목 지정해주기 names = ["title", "score", "label", "comment"]) df_org 웹크롤링 - 데이터 전처리 🐤 결측치 확인 df_org.info() 🐤 기초통계 확인 : 이상 데이터 확인 - 이상치 확인 : score는 0~10 / label은 0~2 df_org.describe() 🐤 평점(score) 현황 데..
[DB] 데이터 수집 - 웹크롤링(selenium) 웹크롤링 준비 - URL : http://movie.daum.net - 다음영화 > 랭킹 > 박스오피스 > 월간 위치의 데이터 수집 - 수집데이터 : 영화 제목, 평점, 댓글 - 생성할 데이터 : 긍정/부정 - 정적인 웹크롤링을 할 경우 : BeautifulSoup : 하나의 페이지에 보이는 부분만 수집할 때 사용 - 동적인 웹크롤링을 할 경우 : selenium : 클릭과 같은 이벤트 등 페이지 전환을 하면서 수집할 때 사용 🐤설치 필요 : pip install selenium - 동적 웹페이지 처리를 위한 라이브러리(페이지를 컨트롤하는 라이브러리) from selenium import webdriver - 웹페이지 내에 데이터 추출을 위한 라이브러리() from selenium.webdriver.co..
[DB] 데이터베이스 실습 - 버스교통카드 데이터 전처리 시각화(히트맵, 막대그래프, 선그래프) 데이터 파일 다운로드👻 [포항시 BIS 교통카드 사용내역 데이터 수집] 1. URL : 국가교통 데이터 오픈마켓 2. 로그인 후 "포항시 BIS 교통카드 사용내역" 검색 3. 상품 다운로드 >> 200개씩 보기 >> 전체선택 >> 파일 다운로드 >> 80개 압축파일 다운 데이터 가져오기 1. 라이브러리 정의하기 import pandas as pd 2. 사용할 데이터 읽어들이기 - 데이터프레임 변수명 : df_bus_card_tot file_path = './01_data/all/df_bus_card_tot.csv' df_bus_card_tot = pd.read_csv(file_path) print("갯수 : ", len(df_bus_card_tot)) df_bus_card_tot.head() 3. 데이터..
[DB] 데이터베이스 실습 - 버스교통카드 데이터 수집 가공 데이터 파일 다운로드👻 [포항시 BIS 교통카드 사용내역 데이터 수집] 1. URL : 국가교통 데이터 오픈마켓 2. 로그인 후 "포항시 BIS 교통카드 사용내역" 검색 3. 상품 다운로드 >> 200개씩 보기 >> 전체선택 >> 파일 다운로드 >> 80개 압축파일 다운 한건 샘플링 하기 여러개의 파일 데이터를 통합하는 경우에는 한개 파일을 기준으로 사용할 컬럼을 정의하여 가공 후 반복 처리하면 편하다. 1. 0번 파일의 csv 데이터 읽어들이기 - 데이터프레임 이름 : df_bus_cart_org file_path = './01_data/org/trfcard(0)/trfcard.csv' df_bus_card_org = pd.read_csv(file_path) df_bus_card_org.head() 2..
[DB] 데이터베이스 연결 - pymysql 라이브러리 사용 pymysql 1. 데이터 조회시에 유용한 라이브러리 2.설치 - 방법1 : conda install -c conda-forge pymysql - 방법2 : pip install pymysql DB 프로그램 순서 데이터베이스 설정 정보 준비 import pymysql ##반드시 있어야 하는 정보 # 접속 ID or 도메인 host = "localhost" # 사용자계정 user = "gjuser" # 패스워드 password = "dbdb" # 데이터베이스명 db = "gjdb" ##설정하면 좋은 정보 # 한글처리 charset = "utf8" # 자동반영 autocommit = True # 조회시 컬럼명을 동시에 보여줄지 여부 설정 cursorclass = pymysql.cursors.DictCurso..
[DB] 데이터베이스 테이블에 저장하기, 설계하기 (DB 연결, 저장, 자원반환) 데이터베이스 테이블에 저장하기 1. 저장한 파일 불러오기 - pandas 2. 테이블 설계하기 - 테이블정의서 - 스크립트명세서 3. 데이터 저장 or 조회시에 유용한 라이브러리 - sqlalchemy (저장) - pymysql (조회) 4. DB연결하기 5. DB저장하기 6. DB 자원 반환(접속 끊기) 7. DB연결하기 최종 저장한 파일 불러오기 저장한 파일 불러오기 🐾 import pandas as pd file_path = "./01_data/new_data.csv" df = pd.read_csv(file_path) df 테이블 설계하기 테이블 설계하기 🐾 - 테이블명, 컬럼명, 컬럼타입, null 여부에 대한 정의가 필요함 (산출물) - 테이블정의서 - ERD - 스크립트명세서 ※ 직접 Heid..