본문 바로가기

분류 전체보기

(106)
[머신러닝ML] 머신러닝이란? 목차 1. 머신러닝이란? 2. 머신러닝의 학습 프로세스와 종류 3. 머신러닝 환경 구축하기 머신러닝이란? 머신러닝(ML) ▪ 알고리즘(algorithms) : 어떠한 문제를 해결하기 위한 일련의 절차나 방법 ▪ 머신러닝(machinelearning) : 기계가 패턴(규칙)을 학습하여 자동화하는 알고리즘 EX) 유튜브 : 개인이 유튜브 영상을 보는 패턴에 대해 학습하는 프로그램(머신러닝)을 만든 다음 그 패턴(알고리즘)에 맞게 다음 영상을 계속 추천 EX) 구매 추천 : 인터넷쇼핑몰에서장바구니에추가한제품과비슷한 제품구매를추천 EX) 번역 : 머신러닝에전문번역가의번역을학습시켜새로운문 장을번역하게함 EX) 자율주행차 : 머신러닝 기술 중 하나인 이미지 처리 기술을 활용하여 도로상의 여러 이미지를 학습,차량에 ..
[DB] 데이터프레임 정리 - 행/열 합치기, 결측치, 중복값, 이상치 처리 데이터프레임 행단위/열단위 합치기 행단위 합치기 import pandas as pd ### 임시 데이터 생성1 data = [["Dog", 3], ["Cat", 5], ["Tiger", 2]] index = [0, 1, 2] columns = ["동물", "나이"] df_temp1 = pd.DataFrame(data, index = index, columns = columns) ### 임시 데이터 생성2 data = [["집", 0], ["초원", 0], ["초원", 1]] index = [0, 1, 2] columns = ["사는곳", "뿔의갯수"] df_temp2 = pd.DataFrame(data, index = index, columns = columns) ### df_temp1과 df_temp2..
[DB] 워드클라우드 시각화 - KoNLPY, Okt, Counter, WordCloud 워드클라우드 - 설치준비 🐤 Java 기반으로 만들어진 라이브러리로 JDK 설치 및 환경 설정 - 환경변수 등록 (파일탐색기>내 pc 마우스 우클릭 > 속성 > 고급시스템설정 > 환경 변수 ) * JAVA_HOME : 경로 - JDK설치 폴더까지 * Path 수정 후 두개 추가 : %JAVA_HOME%, %JAVA_HOME%\bin - PC 재부팅 후 설정 확인 : command창 open 후 -> java, javac 입력 후 help 내용 나오면 성공 🐤라이브러리 설치 - nltk 설치 : 영어 형태소 분석 라이브러리(KoNLPY의 상위 라이브러리) * pip install nltk - nltk 플러그인 추가 설치(다운로드 설치 방식) → 플러그인은..
[DB] 데이터 전처리 및 시각화 - 웹크롤링(selenium), 점(분포) 그래프, 원형 그래프 웹크롤링 - 외부 파일 읽어오기 🐤 행렬데이터 처리 라이브러리 import pandas as pd 🐤 외부 파일 읽어들이기 file_path = "./data/movie_reviews.txt" # 구분자 사용해서 txt저장했을 시 구분자를 명시해줘야함 df_org = pd.read_csv(file_path, # 구분자 알려주기 delimiter = "\t", # 제목 지정해주기 names = ["title", "score", "label", "comment"]) df_org 웹크롤링 - 데이터 전처리 🐤 결측치 확인 df_org.info() 🐤 기초통계 확인 : 이상 데이터 확인 - 이상치 확인 : score는 0~10 / label은 0~2 df_org.describe() 🐤 평점(score) 현황 데..
[DB] 데이터 수집 - 웹크롤링(selenium) 웹크롤링 준비 - URL : http://movie.daum.net - 다음영화 > 랭킹 > 박스오피스 > 월간 위치의 데이터 수집 - 수집데이터 : 영화 제목, 평점, 댓글 - 생성할 데이터 : 긍정/부정 - 정적인 웹크롤링을 할 경우 : BeautifulSoup : 하나의 페이지에 보이는 부분만 수집할 때 사용 - 동적인 웹크롤링을 할 경우 : selenium : 클릭과 같은 이벤트 등 페이지 전환을 하면서 수집할 때 사용 🐤설치 필요 : pip install selenium - 동적 웹페이지 처리를 위한 라이브러리(페이지를 컨트롤하는 라이브러리) from selenium import webdriver - 웹페이지 내에 데이터 추출을 위한 라이브러리() from selenium.webdriver.co..
[DB] 데이터베이스 실습 - 버스교통카드 데이터 전처리 시각화(히트맵, 막대그래프, 선그래프) 데이터 파일 다운로드👻 [포항시 BIS 교통카드 사용내역 데이터 수집] 1. URL : 국가교통 데이터 오픈마켓 2. 로그인 후 "포항시 BIS 교통카드 사용내역" 검색 3. 상품 다운로드 >> 200개씩 보기 >> 전체선택 >> 파일 다운로드 >> 80개 압축파일 다운 데이터 가져오기 1. 라이브러리 정의하기 import pandas as pd 2. 사용할 데이터 읽어들이기 - 데이터프레임 변수명 : df_bus_card_tot file_path = './01_data/all/df_bus_card_tot.csv' df_bus_card_tot = pd.read_csv(file_path) print("갯수 : ", len(df_bus_card_tot)) df_bus_card_tot.head() 3. 데이터..
[DB] 데이터베이스 실습 - 버스교통카드 데이터 수집 가공 데이터 파일 다운로드👻 [포항시 BIS 교통카드 사용내역 데이터 수집] 1. URL : 국가교통 데이터 오픈마켓 2. 로그인 후 "포항시 BIS 교통카드 사용내역" 검색 3. 상품 다운로드 >> 200개씩 보기 >> 전체선택 >> 파일 다운로드 >> 80개 압축파일 다운 한건 샘플링 하기 여러개의 파일 데이터를 통합하는 경우에는 한개 파일을 기준으로 사용할 컬럼을 정의하여 가공 후 반복 처리하면 편하다. 1. 0번 파일의 csv 데이터 읽어들이기 - 데이터프레임 이름 : df_bus_cart_org file_path = './01_data/org/trfcard(0)/trfcard.csv' df_bus_card_org = pd.read_csv(file_path) df_bus_card_org.head() 2..
[DB] 데이터베이스 연결 - pymysql 라이브러리 사용 pymysql 1. 데이터 조회시에 유용한 라이브러리 2.설치 - 방법1 : conda install -c conda-forge pymysql - 방법2 : pip install pymysql DB 프로그램 순서 데이터베이스 설정 정보 준비 import pymysql ##반드시 있어야 하는 정보 # 접속 ID or 도메인 host = "localhost" # 사용자계정 user = "gjuser" # 패스워드 password = "dbdb" # 데이터베이스명 db = "gjdb" ##설정하면 좋은 정보 # 한글처리 charset = "utf8" # 자동반영 autocommit = True # 조회시 컬럼명을 동시에 보여줄지 여부 설정 cursorclass = pymysql.cursors.DictCurso..