본문 바로가기
Review

[코딩애플] 파이썬 업무자동화 8월 강의 4주차 完

by YEON-DU 2020. 8. 30.
반응형

'()'과 같은 소괄호로 묶여있는 데이터 튜플tuple. 리스트와 성질이 같다.

 

KoNLPy

한국어 형태소 분석 라이브러리

400번대 에러 중 403은 주로 권한 문제이다.

이러한 에러는 일반적으로는 user-agent, cookie 등 헤더를 만들어 주면 해결할 수 있다. (안 되는 경우도 있긴 함)

에러를 해결하고 200 응답을 받아야 정상적으로 진행이 가능하다.

 

bs4의 역할 : 스트링을 구조적인 형태로 바꿔주는 것 (문자열 => 객체)

 

Parser의 역할은 다음과 같다.

방법1 => 알고리즘

방법2 => 알고리즘

방법3 => 알고리즘

Parser 별로 각각의 알고리즘으로 데이터를 구조적인 형태로 변환하는 것이다.

 

Input : abcd

Parser1 => a b c 

Parser2 => ab cd

Parser3 => abc d

이처럼 abcd라는 입력이 들어왔을 때 parser마다 문자열을 분해하는 방식이 다르다.

 

속도적인 측면에선 html_parser< lxml (c언어로 작성되었기에 빠르다)

(설치 pip install lxml)

 

list + list => list

하나의 list로 합쳐진다. 숫자 리스트인 경우 더해짐.

 

로딩 (하드디스크에 있는 데이터를 메모리에 적재하는 과정)

 

word2vec

왜 벡터화를 시키는 것이 중요하는가?

단어들을 그래프로 그릴 수 있어진다. x, y에 대한 좌표값을 만들 수 있게 된다. 단어에 대한 수치화를 시킨다.

 

셀레니움 SELENIUM

로그인 이후 크롤링을 해야하는 데이터를 가져올 때 사용되는 라이브러리이다.

파이썬 외에 다른 언어로도 제공된다.

자동화가 필요할 보통 셀레니움을 이용한다.

셀레니움으로 네이버 로그인을 하는 방법도 가능!

 

웹 브라우저를 제어하기 위해서는 Javascript를 알아야 한다. 셀레니움을 제대로 쓰려면 Js를 아는 것이 좋다.

api에 대한 코드를 모아놓은 공간이 driver이다.

A라는 프로그램이 B라는 프로그램을 사용하려면 driver가 필요하다.

python이 다른 프로그램을 제어하려면 마찬가지로 driver가 필요하고 웹 브라우저 제어를 위해 chrome driver를 설치해야 한다.

 

다음과 같이 webdriver를 사용하여 쓸 수 있는 브라우저 목록을 볼 수 있다.

 

mac 기준 fn + f12를 사용하여 개발자 도구에서 document.getElemntById와 같은 명령어를 사용하여 해당 element의 정보를 가져올 수 있다.

 

Javascript에서 높이값을 가져오는 windows.innerheight를 사용하여 높이값을 찾아오고 바로 내려가도록 할 수 있다.

 

그 외에도 크롤링 시 2중 for문의 사용 방법, 3주차에서 배우지 못한 그래프 라이브러리 사용방법을 간단히 배웠다.

또한 엑셀에 관련한 openpyxl 라이브러리에 관한 사항도 배웠다. pandas는 데이터 읽고 쓰기만 가능했다하면 엑셀의 기능을 활용하여 꾸미기 기능까지도 사용할 수 있다고 한다.

 

(+)

이번 주 참석한 사람도 대략 5명 밖에 되지 않았다... 무엇보다 안경을 안 가져와서 소스 코드를 하나도 ㅋㅋㅋㅋ읽지 못했다. 

대략 말씀해주시는 내용을 추측해가면서 코드를 쳤었는데 에러 해결도 자체적으로 해결해야만 했어서 좀 정신이 없었다.

나름 유익했고 괜찮은 강의라 생각한다. 비전공자가 듣기엔 가볍게 이론을 얻어갈 수 있고 (빡센 속도로 실무 포인트만 집어주심) 전공자가 듣기엔 유용한 라이브러리나 사용 포인트를 알 수 있어서 좋은 듯 하다.

비전공자가 듣기전엔 기초적 코딩 지식이 있는 편이 좀 좋을 것 같긴하다! 물론 문법은 매 시간마다 틈틈이 설명해주시지만 ㅎㅎ

진작 알고 있으면 좋은 부분이 많았다. 4주 수업 끝~~~!

반응형

댓글