Patrocinadores Platino
June 3, 2026 · View on GitHub
Effortless Web Scraping for the Modern Web
Métodos de selección · Elegir un fetcher · Spiders · Rotación de proxy · CLI · Modo MCP
Scrapling es un framework de Web Scraping adaptativo que se encarga de todo, desde una sola solicitud hasta un rastreo a gran escala.
Su parser aprende de los cambios de los sitios web y relocaliza automáticamente tus elementos cuando las páginas se actualizan. Sus fetchers evaden sistemas anti-bot como Cloudflare Turnstile de forma nativa. Y su framework Spider te permite escalar a rastreos concurrentes con múltiples sesiones, con Pause & Resume y rotación automática de Proxy, todo en unas pocas líneas de Python. Una biblioteca, cero compromisos.
Rastreos ultrarrápidos con estadísticas en tiempo real y Streaming. Construido por Web Scrapers para Web Scrapers y usuarios regulares, hay algo para todos.
from scrapling.fetchers import Fetcher, AsyncFetcher, StealthyFetcher, DynamicFetcher
StealthyFetcher.adaptive = True
p = StealthyFetcher.fetch('https://example.com', headless=True, network_idle=True) # ¡Obtén el sitio web bajo el radar!
products = p.css('.product', auto_save=True) # ¡Extrae datos que sobreviven a cambios de diseño del sitio web!
products = p.css('.product', adaptive=True) # Más tarde, si la estructura del sitio web cambia, ¡pasa `adaptive=True` para encontrarlos!
O escala a rastreos completos
from scrapling.spiders import Spider, Response
class MySpider(Spider):
name = "demo"
start_urls = ["https://example.com/"]
async def parse(self, response: Response):
for item in response.css('.product'):
yield {"title": item.css('h2::text').get()}
MySpider().start()
Patrocinadores Platino
|
ColdProxy proporciona proxies residenciales y de centros de datos para web scraping estable, recopilación de datos públicos y pruebas con segmentación geográfica en más de 195 países. |
|
Scrapling maneja Cloudflare Turnstile. Para protección de nivel empresarial, Hyper Solutions proporciona endpoints API que generan tokens antibot válidos para Akamai, DataDome, Kasada e Incapsula. Simples llamadas API, sin automatización de navegador. |
|
Oye, creamos
BirdProxies
porque los proxies no deberían ser complicados ni caros. Proxies residenciales e ISP rápidos en más de 195 ubicaciones, precios justos y soporte real. ¡Prueba nuestro juego FlappyBird en la página de inicio para obtener datos gratis! |
|
Evomi
: proxies residenciales desde 0,49 $/GB. Navegador de scraping con Chromium totalmente falsificado, IPs residenciales, resolución automática de CAPTCHA y evasión anti-bot. API Scraper para resultados sin complicaciones. Integraciones MCP y N8N disponibles. |
|
TikHub.io ofrece más de 900 APIs estables en más de 16 plataformas, incluyendo TikTok, X, YouTube e Instagram, con más de 40M de conjuntos de datos. También ofrece modelos de IA con descuento - Claude, GPT, GEMINI y más con hasta un 71% de descuento. |
|
Nsocks ofrece proxies residenciales e ISP rápidos para desarrolladores y scrapers. Cobertura IP global, alto anonimato, rotación inteligente y rendimiento fiable para automatización y extracción de datos. Usa Xcrawl para simplificar el crawling web a gran escala. |
|
Cierra tu portátil. Tus scrapers siguen funcionando. PetroSky VPS - servidores en la nube diseñados para automatización ininterrumpida. Máquinas Windows y Linux con control total. Desde €6,99/mes. |
|
Lee una reseña completa de Scrapling en The Web Scraping Club (nov. 2025), el boletín número uno dedicado al Web Scraping. |
|
Swiftproxy ofrece proxies residenciales escalables con más de 80 millones de IPs en más de 195 países, brindando conexiones rápidas y fiables, rotación automática y un sólido rendimiento anti-bloqueo. Prueba gratuita disponible. |
|
9Proxy ofrece proxies residenciales desde solo \$0,018/IP o \$0,68/GB. Más de 20 millones de IPs en más de 90 países. Sesiones fijas o rotativas, gestionadas desde la aplicación de escritorio o móvil. |
|
NodeMaven - proveedor de proxies confiable con la mayor calidad de IP del mercado. Usa el código promocional SCRAPLING35 para obtener un 35% de descuento en proxies. |
¿Quieres mostrar tu anuncio aquí? Haz clic aquí
Patrocinadores
¿Quieres mostrar tu anuncio aquí? ¡Haz clic aquí y elige el nivel que te convenga!
Características Principales
Spiders - Un Framework Completo de Rastreo
- 🕷️ API de Spider al estilo Scrapy: Define spiders con
start_urls, callbacks asyncparse, y objetosRequest/Response. - ⚡ Rastreo Concurrente: Límites de concurrencia configurables, limitación por dominio y retrasos de descarga.
- 🔄 Soporte Multi-Session: Interfaz unificada para solicitudes HTTP y navegadores headless sigilosos en un solo Spider - enruta solicitudes a diferentes sesiones por ID.
- 💾 Pause & Resume: Persistencia de rastreo basada en Checkpoint. Presiona Ctrl+C para un cierre ordenado; reinicia para continuar desde donde lo dejaste.
- 📡 Modo Streaming: Transmite elementos extraídos a medida que llegan con
async for item in spider.stream()con estadísticas en tiempo real - ideal para UI, pipelines y rastreos de larga duración. - 🛡️ Detección de Solicitudes Bloqueadas: Detección automática y reintento de solicitudes bloqueadas con lógica personalizable.
- 🤖 Cumplimiento de robots.txt: Flag opcional
robots_txt_obeyque respeta las directivasDisallow,Crawl-delayyRequest-ratecon caché por dominio. - 🧪 Modo de Desarrollo: Almacena las respuestas en disco en la primera ejecución y las reproduce en ejecuciones posteriores - itera sobre tu lógica de
parse()sin volver a consultar los servidores objetivo. - 📦 Exportación Integrada: Exporta resultados a través de hooks y tu propio pipeline o el JSON/JSONL integrado con
result.items.to_json()/result.items.to_jsonl()respectivamente.
Obtención Avanzada de Sitios Web con Soporte de Session
- Solicitudes HTTP: Solicitudes HTTP rápidas y sigilosas con la clase
Fetcher. Puede imitar el fingerprint TLS de los navegadores, encabezados y usar HTTP/3. - Carga Dinámica: Obtén sitios web dinámicos con automatización completa del navegador a través de la clase
DynamicFetchercompatible con Chromium de Playwright y Google Chrome. - Evasión Anti-bot: Capacidades de sigilo avanzadas con
StealthyFetchery falsificación de fingerprint. Puede evadir fácilmente todos los tipos de Turnstile/Interstitial de Cloudflare con automatización. - Gestión de Session: Soporte de sesión persistente con las clases
FetcherSession,StealthySessionyDynamicSessionpara la gestión de cookies y estado entre solicitudes. - Rotación de Proxy:
ProxyRotatorintegrado con estrategias de rotación cíclica o personalizadas en todos los tipos de sesión, además de sobrescrituras de Proxy por solicitud. - Bloqueo de Dominios y Anuncios: Bloquea solicitudes a dominios específicos (y sus subdominios) o activa el bloqueo de anuncios integrado (~3,500 dominios de anuncios/rastreadores conocidos) en fetchers basados en navegador.
- Prevención de Fugas DNS: Soporte opcional de DNS-over-HTTPS para enrutar consultas DNS a través del DoH de Cloudflare, previniendo fugas DNS al usar proxies.
- Soporte Async: Soporte async completo en todos los fetchers y clases de sesión async dedicadas.
Scraping Adaptativo e Integración con IA
- 🔄 Seguimiento Inteligente de Elementos: Relocaliza elementos después de cambios en el sitio web usando algoritmos inteligentes de similitud.
- 🎯 Selección Flexible Inteligente: Selectores CSS, selectores XPath, búsqueda basada en filtros, búsqueda de texto, búsqueda regex y más.
- 🔍 Encontrar Elementos Similares: Localiza automáticamente elementos similares a los elementos encontrados.
- 🤖 Servidor MCP para usar con IA: Servidor MCP integrado para Web Scraping asistido por IA y extracción de datos. El servidor MCP presenta capacidades potentes y personalizadas que aprovechan Scrapling para extraer contenido específico antes de pasarlo a la IA (Claude/Cursor/etc), acelerando así las operaciones y reduciendo costos al minimizar el uso de tokens. (video demo)
Arquitectura de Alto Rendimiento y Probada en Batalla
- 🚀 Ultrarrápido: Rendimiento optimizado que supera a la mayoría de las bibliotecas de Web Scraping de Python.
- 🔋 Eficiente en Memoria: Estructuras de datos optimizadas y carga diferida para una huella de memoria mínima.
- ⚡ Serialización JSON Rápida: 10 veces más rápido que la biblioteca estándar.
- 🏗️ Probado en batalla: Scrapling no solo tiene una cobertura de pruebas del 92% y cobertura completa de type hints, sino que ha sido utilizado diariamente por cientos de Web Scrapers durante el último año.
Experiencia Amigable para Desarrolladores/Web Scrapers
- 🎯 Shell Interactivo de Web Scraping: Shell IPython integrado opcional con integración de Scrapling, atajos y nuevas herramientas para acelerar el desarrollo de scripts de Web Scraping, como convertir solicitudes curl a solicitudes Scrapling y ver resultados de solicitudes en tu navegador.
- 🚀 Úsalo directamente desde la Terminal: Opcionalmente, ¡puedes usar Scrapling para hacer scraping de una URL sin escribir ni una sola línea de código!
- 🛠️ API de Navegación Rica: Recorrido avanzado del DOM con métodos de navegación de padres, hermanos e hijos.
- 🧬 Procesamiento de Texto Mejorado: Métodos integrados de regex, limpieza y operaciones de cadena optimizadas.
- 📝 Generación Automática de Selectores: Genera selectores CSS/XPath robustos para cualquier elemento.
- 🔌 API Familiar: Similar a Scrapy/BeautifulSoup con los mismos pseudo-elementos usados en Scrapy/Parsel.
- 📘 Cobertura Completa de Tipos: Type hints completos para excelente soporte de IDE y autocompletado de código. Todo el código fuente se escanea automáticamente con PyRight y MyPy en cada cambio.
- 🔋 Imagen Docker Lista: Con cada lanzamiento, se construye y publica automáticamente una imagen Docker que contiene todos los navegadores.
Primeros Pasos
Aquí tienes un vistazo rápido de lo que Scrapling puede hacer sin entrar en profundidad.
Uso Básico
Solicitudes HTTP con soporte de sesión
from scrapling.fetchers import Fetcher, FetcherSession
with FetcherSession(impersonate='chrome') as session: # Usa la última versión del fingerprint TLS de Chrome
page = session.get('https://quotes.toscrape.com/', stealthy_headers=True)
quotes = page.css('.quote .text::text').getall()
# O usa solicitudes de una sola vez
page = Fetcher.get('https://quotes.toscrape.com/')
quotes = page.css('.quote .text::text').getall()
Modo sigiloso avanzado
from scrapling.fetchers import StealthyFetcher, StealthySession
with StealthySession(headless=True, solve_cloudflare=True) as session: # Mantén el navegador abierto hasta que termines
page = session.fetch('https://nopecha.com/demo/cloudflare', google_search=False)
data = page.css('#padded_content a').getall()
# O usa el estilo de solicitud de una sola vez, abre el navegador para esta solicitud, luego lo cierra después de terminar
page = StealthyFetcher.fetch('https://nopecha.com/demo/cloudflare')
data = page.css('#padded_content a').getall()
Automatización completa del navegador
from scrapling.fetchers import DynamicFetcher, DynamicSession
with DynamicSession(headless=True, disable_resources=False, network_idle=True) as session: # Mantén el navegador abierto hasta que termines
page = session.fetch('https://quotes.toscrape.com/', load_dom=False)
data = page.xpath('//span[@class="text"]/text()').getall() # Selector XPath si lo prefieres
# O usa el estilo de solicitud de una sola vez, abre el navegador para esta solicitud, luego lo cierra después de terminar
page = DynamicFetcher.fetch('https://quotes.toscrape.com/')
data = page.css('.quote .text::text').getall()
Spiders
Construye rastreadores completos con solicitudes concurrentes, múltiples tipos de sesión y Pause & Resume:
from scrapling.spiders import Spider, Request, Response
class QuotesSpider(Spider):
name = "quotes"
start_urls = ["https://quotes.toscrape.com/"]
concurrent_requests = 10
async def parse(self, response: Response):
for quote in response.css('.quote'):
yield {
"text": quote.css('.text::text').get(),
"author": quote.css('.author::text').get(),
}
next_page = response.css('.next a')
if next_page:
yield response.follow(next_page[0].attrib['href'])
result = QuotesSpider().start()
print(f"Se extrajeron {len(result.items)} citas")
result.items.to_json("quotes.json")
Usa múltiples tipos de sesión en un solo Spider:
from scrapling.spiders import Spider, Request, Response
from scrapling.fetchers import FetcherSession, AsyncStealthySession
class MultiSessionSpider(Spider):
name = "multi"
start_urls = ["https://example.com/"]
def configure_sessions(self, manager):
manager.add("fast", FetcherSession(impersonate="chrome"))
manager.add("stealth", AsyncStealthySession(headless=True), lazy=True)
async def parse(self, response: Response):
for link in response.css('a::attr(href)').getall():
# Enruta las páginas protegidas a través de la sesión sigilosa
if "protected" in link:
yield Request(link, sid="stealth")
else:
yield Request(link, sid="fast", callback=self.parse) # callback explícito
Pausa y reanuda rastreos largos con checkpoints ejecutando el Spider así:
QuotesSpider(crawldir="./crawl_data").start()
Presiona Ctrl+C para pausar de forma ordenada - el progreso se guarda automáticamente. Después, cuando inicies el Spider de nuevo, pasa el mismo crawldir, y continuará desde donde se detuvo.
Análisis Avanzado y Navegación
from scrapling.fetchers import Fetcher
# Selección rica de elementos y navegación
page = Fetcher.get('https://quotes.toscrape.com/')
# Obtén citas con múltiples métodos de selección
quotes = page.css('.quote') # Selector CSS
quotes = page.xpath('//div[@class="quote"]') # XPath
quotes = page.find_all('div', {'class': 'quote'}) # Estilo BeautifulSoup
# Igual que
quotes = page.find_all('div', class_='quote')
quotes = page.find_all(['div'], class_='quote')
quotes = page.find_all(class_='quote') # y así sucesivamente...
# Encuentra elementos por contenido de texto
quotes = page.find_by_text('quote', tag='div')
# Navegación avanzada
quote_text = page.css('.quote')[0].css('.text::text').get()
quote_text = page.css('.quote').css('.text::text').getall() # Selectores encadenados
first_quote = page.css('.quote')[0]
author = first_quote.next_sibling.css('.author::text')
parent_container = first_quote.parent
# Relaciones y similitud de elementos
similar_elements = first_quote.find_similar()
below_elements = first_quote.below_elements()
Puedes usar el parser directamente si no necesitas obtener sitios web, como se muestra a continuación:
from scrapling.parser import Selector
page = Selector("<html>...</html>")
¡Y funciona exactamente de la misma manera!
Ejemplos de Gestión de Session Async
import asyncio
from scrapling.fetchers import FetcherSession, AsyncStealthySession, AsyncDynamicSession
async with FetcherSession(http3=True) as session: # `FetcherSession` es consciente del contexto y puede funcionar tanto en patrones sync/async
page1 = session.get('https://quotes.toscrape.com/')
page2 = session.get('https://quotes.toscrape.com/', impersonate='firefox135')
# Uso de sesión async
async with AsyncStealthySession(max_pages=2) as session:
tasks = []
urls = ['https://example.com/page1', 'https://example.com/page2']
for url in urls:
task = session.fetch(url)
tasks.append(task)
print(session.get_pool_stats()) # Opcional - El estado del pool de pestañas del navegador (ocupado/libre/error)
results = await asyncio.gather(*tasks)
print(session.get_pool_stats())
CLI y Shell Interactivo
Scrapling incluye una poderosa interfaz de línea de comandos:
Lanzar el Shell interactivo de Web Scraping
scrapling shell
Extraer páginas a un archivo directamente sin programar (Extrae el contenido dentro de la etiqueta body por defecto). Si el archivo de salida termina con .txt, entonces se extraerá el contenido de texto del objetivo. Si termina con .md, será una representación Markdown del contenido HTML; si termina con .html, será el contenido HTML en sí mismo.
scrapling extract get 'https://example.com' content.md
scrapling extract get 'https://example.com' content.txt --css-selector '#fromSkipToProducts' --impersonate 'chrome' # Todos los elementos que coinciden con el selector CSS '#fromSkipToProducts'
scrapling extract fetch 'https://example.com' content.md --css-selector '#fromSkipToProducts' --no-headless
scrapling extract stealthy-fetch 'https://nopecha.com/demo/cloudflare' captchas.html --css-selector '#padded_content a' --solve-cloudflare
Note
Hay muchas características adicionales, pero queremos mantener esta página concisa, incluyendo el servidor MCP y el Shell Interactivo de Web Scraping. Consulta la documentación completa aquí
Benchmarks de Rendimiento
Scrapling no solo es potente, también es ultrarrápido. Los siguientes benchmarks comparan el parser de Scrapling con las últimas versiones de otras bibliotecas populares.
Prueba de Velocidad de Extracción de Texto (5000 elementos anidados)
| # | Biblioteca | Tiempo (ms) | vs Scrapling |
|---|---|---|---|
| 1 | Scrapling | 2.02 | 1.0x |
| 2 | Parsel/Scrapy | 2.04 | 1.01 |
| 3 | Raw Lxml | 2.54 | 1.257 |
| 4 | PyQuery | 24.17 | ~12x |
| 5 | Selectolax | 82.63 | ~41x |
| 6 | MechanicalSoup | 1549.71 | ~767.1x |
| 7 | BS4 with Lxml | 1584.31 | ~784.3x |
| 8 | BS4 with html5lib | 3391.91 | ~1679.1x |
Rendimiento de Similitud de Elementos y Búsqueda de Texto
Las capacidades de búsqueda adaptativa de elementos de Scrapling superan significativamente a las alternativas:
| Biblioteca | Tiempo (ms) | vs Scrapling |
|---|---|---|
| Scrapling | 2.39 | 1.0x |
| AutoScraper | 12.45 | 5.209x |
Todos los benchmarks representan promedios de más de 100 ejecuciones. Ver benchmarks.py para la metodología.
Instalación
Scrapling requiere Python 3.10 o superior:
pip install scrapling
Esta instalación solo incluye el motor de análisis y sus dependencias, sin ningún fetcher ni dependencias de línea de comandos.
Dependencias Opcionales
-
Si vas a usar alguna de las características adicionales a continuación, los fetchers, o sus clases, necesitarás instalar las dependencias de los fetchers y sus dependencias del navegador de la siguiente manera:
pip install "scrapling[fetchers]" scrapling install # normal install scrapling install --force # force reinstallEsto descarga todos los navegadores, junto con sus dependencias del sistema y dependencias de manipulación de fingerprint.
O puedes instalarlos desde el código en lugar de ejecutar un comando:
from scrapling.cli import install install([], standalone_mode=False) # normal install install(["--force"], standalone_mode=False) # force reinstall -
Características adicionales:
- Instalar la característica del servidor MCP:
pip install "scrapling[ai]" - Instalar características del Shell (Shell de Web Scraping y el comando
extract):pip install "scrapling[shell]" - Instalar todo:
pip install "scrapling[all]"
Recuerda que necesitas instalar las dependencias del navegador con
scrapling installdespués de cualquiera de estos extras (si no lo hiciste ya) - Instalar la característica del servidor MCP:
Docker
También puedes instalar una imagen Docker con todos los extras y navegadores con el siguiente comando desde DockerHub:
docker pull pyd4vinci/scrapling
O descárgala desde el registro de GitHub:
docker pull ghcr.io/d4vinci/scrapling:latest
Esta imagen se construye y publica automáticamente usando GitHub Actions y la rama principal del repositorio.
Contribuir
¡Damos la bienvenida a las contribuciones! Por favor lee nuestras pautas de contribución antes de comenzar.
Descargo de Responsabilidad
Caution
Esta biblioteca se proporciona solo con fines educativos y de investigación. Al usar esta biblioteca, aceptas cumplir con las leyes locales e internacionales de scraping de datos y privacidad. Los autores y contribuyentes no son responsables de ningún mal uso de este software. Respeta siempre los términos de servicio de los sitios web y los archivos robots.txt.
🎓 Citas
Si has utilizado nuestra biblioteca con fines de investigación, por favor cítanos con la siguiente referencia:
@misc{scrapling,
author = {Karim Shoair},
title = {Scrapling},
year = {2024},
url = {https://github.com/D4Vinci/Scrapling},
note = {An adaptive Web Scraping framework that handles everything from a single request to a full-scale crawl!}
}
Licencia
Este trabajo está licenciado bajo la Licencia BSD-3-Clause.
Agradecimientos
Este proyecto incluye código adaptado de:
- Parsel (Licencia BSD)-Usado para el submódulo translator





