Aprenda Python: Como Criar um Crawler de Notícias em Tempo Real

POR CÓDIGO DA HORA • 13 MARÇO 2026

O Que é um Web Crawler?

Um Web Crawler (ou rastreador) é um script automatizado que navega pela internet para indexar ou extrair informações. Diferente de um scraper simples que olha apenas uma página, um crawler pode ser configurado para monitorar portais inteiros em busca de atualizações. No jornalismo de dados e no marketing, essa ferramenta é essencial para acompanhar o que está acontecendo no mundo sem precisar abrir dezenas de abas no navegador.

Ferramentas Necessárias

Utilizaremos a biblioteca requests para simular um navegador acessando o portal e a BeautifulSoup para filtrar o código HTML e extrair apenas os títulos das notícias (manchetes).

pip install requests beautifulsoup4

🛠️ Implementando o Robô de Notícias

Neste exemplo, vamos capturar as manchetes principais do portal G1. Note como usamos o seletar de classe para isolar o texto dos links de notícias.

import requests
from bs4 import BeautifulSoup

def buscar_noticias():
    url = "https://g1.globo.com/"
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36"
    }

    try:
        # Fazendo a requisição ao portal
        resposta = requests.get(url, headers=headers)
        soup = BeautifulSoup(resposta.text, 'html.parser')

        # No G1, as manchetes costumam usar a classe 'feed-post-link'
        manchetes = soup.find_all('a', class_='feed-post-link')

        print(f"--- Últimas Notícias do G1 ({len(manchetes)} encontradas) ---")
        
        for i, noticia in enumerate(manchetes[:10], 1):
            titulo = noticia.get_text().strip()
            link = noticia['href']
            print(f"{i}. {titulo}")
            print(f"   Link: {link}\\n")

    except Exception as e:
        print(f"Erro ao capturar notícias: {e}")

if __name__ == "__main__":
    buscar_noticias()

Análise Técnica: Seletores Dinâmicos

Portais de notícias costumam mudar suas classes CSS frequentemente para evitar o scraping. Por isso, um bom desenvolvedor Python deve saber inspecionar o código-fonte (F12 no navegador) para identificar qual tag <a> ou <h2> está envolvendo o título da notícia no momento.

💼 Aplicação no Mercado

Empresas de comunicação utilizam crawlers para:

  • Clipping Automatizado: Monitorar onde a marca do cliente foi mencionada na mídia.
  • Análise de Tendências: Identificar quais assuntos estão em alta (Trending Topics) em portais regionais.
  • Criação de Newsletters: Alimentar automaticamente e-mails semanais com as notícias mais relevantes de um nicho específico.

Este projeto une o poder do Python com a necessidade real de consumo de informação rápida e organizada.