본문 바로가기

분류 전체보기

(30)
국내주식 크롤링 코드 정리 import sys, os import requests import bs4 import pandas as pd import xlrd import openpyxl import time from datetime import datetime, date, timedelta import random if os.path.isfile("C:/Users/g0917/Desktop/Test5.xlsx"): df = pd.read_excel("C:/Users/g0917/Desktop/Test5.xlsx", index_col=0) else: stats = { "날짜" : ["2000.01.02","2000.01.01"]} df = pd.DataFrame(stats) with pd.ExcelWriter("C:/Users/g09..
Global 함수 사용 code_list = ['005930'] if datetime.now() > last_date_time: for code_number in code_list: total_data_list = [] my_headers = { "referer": "https://finance.naver.com/item/sise_day.nhn?code={}&page=1".format(code_number), } for page_number in range(1, 21): url = "https://finance.naver.com/item/sise_day.nhn?code={0}&page={1}".format(code_number, page_number) res = requests.get(url = url, headers = my..
주가 크롤링 (네이버 주식) import sys import pandas as pd import xlrd from datetime import datetime import requests import bs4 code_list = ['005930'] if datetime.now() > last_date_time: for code_number in code_list: total_data_list = [] my_headers = { "referer": "https://finance.naver.com/item/sise_day.nhn?code={}&page=1".format(code_number), "upgrade-insecure-requests": , "user-agent": } for page_number in range(1, 21): ..
주가크롤링 엑셀파일 구성 및 last time 정의 크롤링 엑셀파일은 다음과 같이 구성할 예정이다. 날짜 종가 전일비 시가 고가 저가 거래량 0 2021.06.25 81600 400 81500 81900 81200 12966342 1 2021.06.24 81200 1100 80400 81400 80100 18771080 2 2021.06.23 80100 100 80500 80600 79900 13856548 3 2021.06.22 80000 100 80200 80300 79900 11773365 4 2021.06.21 79900 600 79700 80000 79600 16063340 5 2021.06.18 80500 400 81100 81100 80500 14916721 그렇기에 dataframe 구성을 위와 같이 먼저 지정해야 한다. 아래 코드는 지난 ..
엑셀파일 만들기, 불러오기 import os import pandas as pd import xlrd if os.path.isfile("C:/Users/g0917/Desktop/Test2.xlsx"): df = pd.read_excel("C:/Users/g0917/Desktop/Test2.xlsx", index_col=0) else: df = pd.DataFrame() with pd.ExcelWriter("C:/Users/g0917/Desktop/Test2.xlsx", engine = 'openpyxl') as writer: df.to_excel(writer, sheet_name = "sheet1") 주가 크롤링하여 데이터를 저장하는 엑셀파일을 따로 만들기. 1. 맨 처음 파일이 존재하는 지 여부 부터 체크. 2. os.path...
1.4 Attach 함수에 대하여 Attach > DF attach(DF) > height [1] 165.3 170.1 175.0 182.1 168.0 162.0 155.2 176.9 178.5 176.1 167.1 180.0 162.2 176.1 158.2 168.6 169.2 #DF$height이라 안하고 height이라고 바로 써도 변수로 접근이 가능하다. #주의할 점은 height은 DF와 상관없는 별도 객체이다. ​ > height[1] [1] 165.3 > height[1] height[1] [1] NA > height [1] NA 170.1 175.0 182.1 168.0 162.0 155.2 176.9 178.5 176.1 167.1 180.0 162.2 176.1 158.2 168.6 169.2 > head(DF, 1) ..
1.3. Dataframe Vector들을 합쳐 Dataframe 만들기 : DF a b c DF DF a b c 1 1 Ex 8.6 2 2 VG 7.5 3 3 VG 7.4 4 4 GD 6.5 5 5 GD 5.3 #당연한 말이지만 벡터들의 길이는 다 같아야 한다. ​ > DF2 DF2 Rank Grade Score 1 1 Ex 8.6 2 2 VG 7.5 3 3 VG 7.4 4 4 GD 6.5 5 5 GD 5.3 ​ Dataframe에서 변수 선택하기 : DF$변수 > DF$Grade NULL > DF$b [1] "Ex" "VG" "VG" "GD" "GD" #여기서 각 vector들의 이름(a,b,c)를 넣어주어야 한다. Rank, Grade, Score는 그저 DF를 표기할 때 맨 위에 쓰는 이름일 뿐임. 이는 str()에서도 잘..
1.2. 데이터에 대해서 데이터의 종류 - 변수 구분 변수 - 질적 변수 - 명목형 변수(factor) : ex) {남, 여}, {기독교, 불교, 천주교}, {A, B, AB, O} 변수 - 질적 변수 - 순서형 변수(ordered) : ex) {A+, A, A-, B+, ...} 변수 - 양적 변수 - 이산형 변수 변수 - 양적 변수 - 연속형 변수 -> 자료 유형에 따라 통계분석기법이 달라진다. ​ ​ Data in R R은 SQL, Excel과 같은 데이터를 관리하는 도구에서 데이터를 불러와 분석을 하는 프로그램이다. ​ 프로그래밍의 가장 작은 원소 데이터 : Scalar (Float, Integer, String, Boolean) R의 기본 데이터 단위 : Vector {Scalar, Scalar, Scalar, ...}..