on
12월 27일
12월 27일
8. 웹스크래핑(크롤링) 기초
영화 순위 페이지에서 영화 제목 가져오기
(bs4패키지 설치 필요)
크롤링 기본 세팅
import requests
from bs4 import BeautifulSoup
#타겟 URL을 읽어서 HTML를 받아오고,
headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'}
data = requests.get('https://movie.naver.com/movie/sdb/rank/rmovie.nhn?sel=pnt&date;=20200303',headers=headers)
#HTML을 BeautifulSoup이라는 라이브러리를 활용해 검색하기 용이한 상태로 만듦
#soup이라는 변수에 "파싱 용이해진 html"이 담긴 상태가 됨
#이제 코딩을 통해 필요한 부분을 추출하면 된다.
soup = BeautifulSoup(data.text, 'html.parser')
##########
beautifulsoup 내 select에 미리 정의된 방법들 (copy selector)
select / select_one : 태그와 속성값으로 찾는 방법 / 한 개만 가져오고싶은 경우
태그 안의 텍스트 찍고 싶을 땐 → 태그.text
태그 안의 속성을 찍고 싶을 땐 → 태그[’속성’]
11. DB 개괄
Database 의 큰 두 종류
SQL : 행열의 생김새가 정해진 엑셀에 데이터를 저장하는 것과 유사, 정형화, 일관성, 분석에 용이
ex) MS-SQL, My-SQL
NoSQL(not only SQL) : 딕셔너리 형태로 데이터 저장, 자유로운 형태, 일관성 부족
ex) MongoDB
12. pymongo로 DB 조작하기
from pymongo import MongoClient # pymongo를 임포트 하기(패키지 인스톨 필요)
client = MongoClient('localhost', 27017) # mongoDB는 27017 포트로 돌아갑니다.
db = client.dbsparta # 'dbsparta'라는 이름의 db를 만듭니다.
insert(추가, 저장)
doc = {’name’:’bobby','age':21}
db.users.insert_one(doc) #db의 users콜렉션에 정보 추가하기
find(찾기)
MongoDB에서 데이터 모두 보기
all_users = list(db.users.find({}))
same_ages = list(db.users.find({'age':21},{'_id':False})) # 여러개 찾기(_id값은 제외하고 출력) user = db.users.find_one({'name':'bobby'}) #한 개 찾기(그 중 첫번째 것만 나옴)
print(all_users[0]) # 0번째 결과값을 보기
print(all_users[0]['name']) # 0번째 결과값의 'name'을 보기
for user in all_users: # 반복문을 돌며 모든 결과값을 보기
print(user)
update(수정) : db.people.update_one(찾을조건,{ '$set': 어떻게바꿀지 }) #오타주의
delete(삭제) : db.users.delete_one({'name':'bobby'})
13. 웹스크래핑 결과 저장하기
영화 랭킹, 제목, 별점을 DB에 저장
doc = {
'rank' : rank,
'title' : title,
'star' : star
}
db.movies.insert_one(doc)
14. Quiz_웹스크래핑 결과 이용하기
영화 DB에서 find, update 연습하기
target_movie = db.movies.find_one({'title':'매트릭스'})
target_star = target_movie['star']
movies = list(db.movies.find({'star':target_star}))
for movie in movies:
print(movie['title'])
4주차
https://www.notion.so/ynes93/4-682b2d244357441f8469b861562781fc
3. Flask 시작하기 - 서버 만들기
flask 프레임워크 : 서버를 구동시켜주는 편한 코드 모음
통상적으로 flask서버를 돌리는 파일은 app.py라고 이름 지음
https://localhost:5000/ 로 접속
4. Flask 시작하기 - HTML파일 주기
프로젝트 폴더 안에,
ㄴstatic 폴더 : 이미지, css파일 저장
ㄴtemplates 폴더 : html파일 저장
ㄴapp.py파일
flask 내장함수 render_templates 이용
from http://wakeupsona.tistory.com/6 by ccl(A) rewrite - 2021-12-27 19:01:16