일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- 파이썬
- 백준
- 2164 카드2
- 인스타그램
- 웹페이지
- 알고리즘
- 코랩 런타임
- 해시태그
- 플라스크
- geopandas
- 혁신성장부문
- python buildpacks
- Crawling
- string to list
- to shp
- clustering
- Selenium
- geoDataFrame
- 셀레니움
- NLP
- colab runtime
- flask
- 크롤링
- Python
- Merge Repositories
- plotly dash
- Chat-GPT
- 괄호 문제
- convert to shp
- kmeans
- Today
- Total
목록파이썬/텍스트마이닝 (12)
코딩코딩코딩
앞에서 했던 작업들을 모두 함수로 만들어서 작업했습니다. # Create Empty List & Parameter Setting url = 'http://www.instagram.com' path = 'C:\\Users\\rectworks\\Downloads\\chromedriver_win32\\chromedriver.exe' SCROLL_PAUSE_TIME = 3.0 ID = 'user_id' PW = 'password' post_link = [] popularPost_len = [] id_list = [] like_list = [] tag_list = [] link_list = [] date_list = [] month_list = [] day_list = [] def instagram_login(i..
지난 번 내용과 이어서 해시태그와 좋아요, 날짜등을 가져오는 함수를 만들어보도록 하겠습니다. SCROLL_PAUSE_TIME = 2.0 post_link = [] while True: pageString = driver.page_source # page_source : 현재 렌더링된 페이지의 Elements를 모두 가져옴 bsObj = bs(pageString, 'lxml') for postline in bsObj.find_all(name='div', attrs={"class":"Nnq7C weEfm"}): a_len = len(postline.select('a')) # 인스타그램 게시물은 행별로 최대 3개까지 확인할 수 있는데, 최근게시물이나 마지막 게시물은 1,2개가 나올 수도 있어서 len 지정 f..
1. Selenium 기반 웹 크롤링 기법 2. 해시태그, 좋아요 등의 정보 크롤링 3. 인스타그램 해시태그와 좋아요 수를 크롤링한 후 각자 개수를 비교해서 어떤 영향을 미치는지 확인할 것 - 키워드 네트워크 분석기법 활용 # Selenium Basic command 1. driver.get('url') : 페이지 접속 2. elem = driver.find_element_by_name('q') : 커서를 검색어 입력 부분에 위치시킴 - find_by_class_name or find_by_xpath 등도 가능 (xpath는 html 검사 시 우클릭>xpath copy로 복사 가능 3. elem.clear() : 검색어 부분 입력내용 삭제 4. elem.send_keys('내용') : 내용 입력 5. e..
https://hansuho113.tistory.com/4 파이썬 네이버 뉴스 일일 기사 크롤링 - 2 지난번 크롤링 했던 내용들을 바탕으로 기사 간 클러스터링 진행 제목 + 요약내용 리스트를 Konlpy 를 통해 명사화 시킨 후 클러스터링을 진행할 예정입니다. TitDesc_okt = [] for item in TitDesc_list: item_n hansuho113.tistory.com 이전 글에 이어서 클러스터별 대표 기사를 추출하는 작업을 진행할 예정 * 크롤링 날짜를 바꾸고 실행해서 클러스터링 기사 내용이 조금 다릅니다. cluster_centers = km_cluster.cluster_centers_ print('cluster_centers shape : ', cluster_centers.sh..
지난번 크롤링 했던 내용들을 바탕으로 기사 간 클러스터링 진행 제목 + 요약내용 리스트를 Konlpy 를 통해 명사화 시킨 후 클러스터링을 진행할 예정입니다. TitDesc_okt = [] for item in TitDesc_list: item_nouns = ' '.join(okt.nouns(item)) TitDesc_okt.append(item_nouns) tfidf_vectorizer = TfidfVectorizer() tfidf_matrix_okt = tfidf_vectorizer.fit_transform(TitDesc_okt) TitDesc_okt[:3] #Vectorization okt, komoran, kkma, Hannanum등의 tokenizing 모델들이 있지만 개인적으로 모두 진행해본 ..
네이버 뉴스 키워드 일일 기사 크롤링 - 키워드와 날짜를 지정하고 크롤링하는 함수를 만들고 해당 검색의 페이지가 끝날 때까지 크롤링 진행 import pandas as pd import numpy as np import feedparser from bs4 import BeautifulSoup as bs import urllib import urllib.request as req import requests from konlpy.tag import Kkma, Okt, Komoran okt = Okt() from konlpy.utils import pprint import warnings warnings.filterwarnings("ignore") href_list = [] # 기사 주소가 들어갈 리스트 T..