본문 바로가기
coding/python

[py] 네이버 뉴스 타이틀, url 크롤링

by 코딩하는 갓디노 2022. 8. 7.

[py] 네이버 뉴스 타이틀, url 크롤링

 

사이트에서 
내가원하는 제목과 링크를 
크롤링합니다. 

 

라이브러리 설치 확인

pip list

 

beautifulsoup4 , requests 패키지 설치

  • BeautifulSoup: 웹 페이지의 정보를 쉽게 스크랩할 수 있는 기능을 제공하는 라이브러리
  • Requests: HTTP 요청을 보낼 수 있도록 기능을 제공하는 라이브러리
pip install beautifulsoup4
pip install requests

 

 

네이버 뉴스 타이틀, url 크롤링 코드

네이버 뉴스에서 원하는 키워드에 관련된 기사 제목을 추출할때 사용합니다. 

import requests 
from bs4 import BeautifulSoup
import pyautogui

keyword = pyautogui.prompt('검색어를 입력하세요.')
lastPage = pyautogui.prompt('마지막 페이지 번호를 입력하세요.')
pageNum = 1
for i in range(1, int(lastPage) * 10, 10):
    print(f'{pageNum} 페이지 -----------------------------------')
    response = requests.get(f'https://search.naver.com/search.naver?where=news&sm=tab_jum&query={keyword}&start={i}')
    html = response.text
    soup = BeautifulSoup(html, 'html.parser')

    links = soup.select('.news_tit')
    for link in links:
        title = link.text
        url = link.attrs['href']
        print(title, url)
    pageNum = pageNum + 1

 

 

요즘 가장 인기있는 드라마, 우영우를 키워드로 검색해보겠습니다. 

 

 

3페이지까지의 우영우에 관련된 기사 제목과 기사 url을 추출해보겠습니다.

 

 

이렇게 키워드를 넣고 원하는 마지막 페이지를 입력해 관련 정보를 크롤링해보았습니다. 

댓글0