일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- clustering
- geoDataFrame
- Selenium
- NLP
- Merge Repositories
- convert to shp
- 혁신성장부문
- 코랩 런타임
- kmeans
- 해시태그
- plotly dash
- Crawling
- 웹페이지
- 2164 카드2
- 셀레니움
- python buildpacks
- 백준
- colab runtime
- string to list
- geopandas
- to shp
- 인스타그램
- 알고리즘
- 크롤링
- Chat-GPT
- flask
- 파이썬
- 괄호 문제
- 플라스크
- Python
- Today
- Total
목록파이썬 (22)
코딩코딩코딩
- 단순 복사는 복사된 데이터에 변형을 주면 원본데이터에도 변형이 일어납니다. - 얕은 복사는 2차원 리스트를 예로 들었을 때, 단순 값으로 배정된 원소의 경우 원본데이터에 영향을 미치지 않지만 2차원 리스트 내에 있는 원소에 변형을 줄 경우 원본데이터에 영향을 미칩니다. 2차원 원소의 경우 리스트 형태만 복사했다고 생각하면 됩니다. - 깊은 복사는 얕은 복사에서 원본데이터에 영향을 주었던 2차원 원소 역시도 복사가 되어 전혀 영향을 주지 않습니다. 예제 코드 > 1. 단순 복사 x = [1,2,3] y = x print(y) # [1,2,3] 출력 y[2] = 300 print(x,y) # [1,2,300], [1,2,300] 출력 2. 얕은 복사 a = [4,[1,2,3],6] # 2차원 리스트 b ..
https://hansuho113.tistory.com/4 파이썬 네이버 뉴스 일일 기사 크롤링 - 2 지난번 크롤링 했던 내용들을 바탕으로 기사 간 클러스터링 진행 제목 + 요약내용 리스트를 Konlpy 를 통해 명사화 시킨 후 클러스터링을 진행할 예정입니다. TitDesc_okt = [] for item in TitDesc_list: item_n hansuho113.tistory.com 이전 글에 이어서 클러스터별 대표 기사를 추출하는 작업을 진행할 예정 * 크롤링 날짜를 바꾸고 실행해서 클러스터링 기사 내용이 조금 다릅니다. cluster_centers = km_cluster.cluster_centers_ print('cluster_centers shape : ', cluster_centers.sh..
지난번 크롤링 했던 내용들을 바탕으로 기사 간 클러스터링 진행 제목 + 요약내용 리스트를 Konlpy 를 통해 명사화 시킨 후 클러스터링을 진행할 예정입니다. TitDesc_okt = [] for item in TitDesc_list: item_nouns = ' '.join(okt.nouns(item)) TitDesc_okt.append(item_nouns) tfidf_vectorizer = TfidfVectorizer() tfidf_matrix_okt = tfidf_vectorizer.fit_transform(TitDesc_okt) TitDesc_okt[:3] #Vectorization okt, komoran, kkma, Hannanum등의 tokenizing 모델들이 있지만 개인적으로 모두 진행해본 ..
네이버 뉴스 키워드 일일 기사 크롤링 - 키워드와 날짜를 지정하고 크롤링하는 함수를 만들고 해당 검색의 페이지가 끝날 때까지 크롤링 진행 import pandas as pd import numpy as np import feedparser from bs4 import BeautifulSoup as bs import urllib import urllib.request as req import requests from konlpy.tag import Kkma, Okt, Komoran okt = Okt() from konlpy.utils import pprint import warnings warnings.filterwarnings("ignore") href_list = [] # 기사 주소가 들어갈 리스트 T..