본문 바로가기
파이썬

파이썬 웹크롤링 잘하는 법 3단계, 이것만 따라 해보세요

by startcoding 2022. 7. 20.

파이썬 웹크롤링 잘하는 법 3단계

 

 

"인터넷 강의, 블로그에 있는 코드가 무슨 말인지도 잘 모르겠고 따라 쳐도 오류가 나요"

"어떻게 공부해야할지 모르겠어요. 크롤링 공부 순서가 있나요?"

 

웹크롤링, 잘 하고 싶은데 무엇부터 공부해야 할지 고민이신가요? 이제 제가 알려드리는 순서대로 공부해 보세요. 크롤링에 대한 이해가 300% 쉬워질 겁니다.

[1단계] 파이썬 핵심 문법, HTML, CSS 선택자를 먼저 공부하자

1) 파이썬 핵심 문법(자료형~함수) 학습

 

코딩을 완전히 처음하는 사람이라도, 일주일 '하루 2시간' 이면 충분히 학습할 수 있습니다. 문법이라고 영문법처럼 어렵고 외워야하는 것이 많지 않습니다. 초등학생들도 공부할 수 있는 수준입니다. 어렵다고 단정짓고 절대 포기하지 마세요.

(스타트코딩 유튜브에서 파이썬 무료 강의만 학습하셔도 됩니다)

2) HTML에 대해서 정확하게 알아봅니다.

 

웹페이지는 HTML로 되어 있기 때문에 웹크롤링을 하려면 꼭 알아야 하는 내용입니다. 크롬에서 f12버튼을 누르면 개발자도구가 켜지는데 Elements 탭에서 웹페이지의 HTML을 확인할 수 있습니다. HTML 태그 구조와 문서 구조, 속성 위주로 공부합니다.

CSS 선택자, 심도있게 공부합니다. 웹페이지에는 수많은 태그가 있습니다. 그중에서 내가 원하는 태그를 선택하려면 CSS 선택자가 필요합니다. 진짜 중요한 내용이니 꼭 알고 갑니다. 크롤링할 때 데이터 선택 시 자주 사용하는 개념입니다. 

[2단계] 파이썬 크롤링 라이브러리 사용법을 익히자

requests, Beautifulsoup, selenium 라이브러리 사용법을 알아봅니다. 서버에 요청을 보내는 requests로 어떻게 웹사이트의 정보를 받아오는지, Beautifulsoup로 어떻게 받아온 정보에서 원하는 데이터만 추출해 내는지, selenium으로 브라우저를 어떻게 제어하는지 학습합니다.

인프런에 저의 무료 강의만 학습해도 위 내용을 다 공부할 수 있습니다. (수강평 한번 보고 가세요)

[3단계] 내가 원하는 사이트 크롤링에 도전

기본적인 파이썬 크롤링 라이브러리 사용법을 익혔다면 내가 원하는 사이트 크롤링을 합니다. 2~3개의 사이트 정도 선정합니다. 그런데 배운내용을 적용해도 잘 안될 수 있습니다. 웹페이지의 데이터를 받아오지 못하는 경우도 있고, 웹페이지마다 다양한 오류가 발생할 수 있습니다.

웹페이지의 데이터를 받아오지 못할때는, 동적 페이지가 무엇인지 학습해 봅니다. 동적페이지란, 데이터를 필요할 때 서버에 요청해서 받아오는 페이지 입니다.  오류 메시지를 구글에 검색해서 해당 오류가 왜 발생했는지 다른 사람들이 올린 해결방법을 적용해 봅니다. 이 과정에서 많이들 힘들어하는데,구글 검색을 하면 할수록 해결책을 빨리 찾는 능력이 생깁니다.

하나씩 웹크롤링에 성공하면서 실력이 성장합니다. 다른 사이트를 크롤링할 때 이전에 고민하고 찾아보던 경험이 다 밑거름이 됩니다. 원하는 사이트 5개 정도만 성공해도 크롤링에 대한 자신감이 붙습니다. 

이상 긴 글 읽어주셔서 진심으로 감사드립니다.

 

함께 읽으면 좋은 글

 

파이썬 웹 크롤링 스크래핑 강의 - 도대체 어떻게 시작할까요?? (영상)

안녕하세요. 초보자를 위한 IT교육 컨텐츠를 제작하는 스타트코딩입니다! 여러분이 이제 막 파이썬 웹 크...

blog.naver.com

 

 

직장인 온라인 재택 부업 추천, 코딩 배우며 월 100만원 부수입 얻는 방법

안녕하세요. 스타트코딩입니다. 코딩을 배우면, 누구나 월 100만원을 쉽게 벌 수 있습니다. 돈, 사람에게 ...

blog.naver.com

 

댓글