Apify No Es un Scraper: El Runtime Serverless que el 90% de Desarrolladores Ignora

# Apify No Es un Scraper: El Runtime Serverless que el 90% de Desarrolladores Ignora

Sabes usar Puppeteer o Playwright. Pero sigues escribiendo a mano la lógica de colas de URLs, reintentos, rotación de proxies y persistencia.

Llevas años reinventando la rueda y quizás ni lo sabes.

El error común es pensar que Apify es una plataforma cerrada y cara para no-programadores. Algo tipo "PaaS de scraping" que te cobra por ejecutar scrapers ajenos.

*La realidad es exactamente la contraria. *

Crawlee — el núcleo de Apify — es open source (licencia MIT). Se puede usar completamente gratis, offline, localmente en tu máquina. Y ofrece un framework que abstrae la gestión de sesiones, el manejo de cookies, la rotación de user-agents y las políticas de reintentos con configuración declarativa.

Mientras que con Playwright puro necesitas bibliotecas adicionales (o código propio) para cada una de estas funcionalidades, Crawlee las ofrece como ciudadanos de primera clase.

El valor real de Apify no está en el hosting. Está en el framework y las utilidades que ahorran meses de desarrollo.

---

Lo que la Gente se Equivoca sobre Apify y Crawlee

Dos confusiones matan la oportunidad antes de empezar:

❌ "Apify es caro para proyectos pequeños."

✅ Crawlee es gratis. Open source. MIT. Funciona localmente sin pagar nada. Prototipas y desarrollas todo offline, y escalas a la plataforma solo cuando necesitas ejecución serverless o proxies.

❌ "Prefiero Scrapy (Python) porque mi equipo ya lo usa."

✅ Scrapy es excelente. Pero Crawlee es su equivalente moderno para el ecosistema Node.js/TypeScript, con la ventaja de ejecución nativa en navegador headless cuando necesitas renderizado JS complejo. No es mejor ni peor. Es el equivalente para tu stack si trabajas con JavaScript.

❌ "Si uso Playwright directamente tengo más control."

✅ Tienes más control sobre el navegador. Pero estás renunciando a la gestión de colas, reintentos, persistencia y proxies que Crawlee resuelve por ti. La pregunta no es "control vs dependencia". Es "cuántas horas quieres perder escribiendo código que ya está resuelto y testeado por una comunidad activa" .

---

El Ecosistema: Crawlee (Open Source) vs Apify Platform

Esta distinción es clave para entender la propuesta de valor:

Crawlee: Framework open source (MIT) para Node.js/TypeScript. Gestiona colas de URLs, reintentos automáticos, persistencia en bases de datos (SQLite, MongoDB, Redis), rotación de proxies y sesiones. Funciona con Playwright, Puppeteer o Cheerio. Lo ejecutas donde quieras: local, VPS, tu propio cloud.
Apify Platform: Infraestructura serverless que añade ejecución en la nube, colas de requests gestionadas, monitorización, almacenamiento de datasets, y el proxy integrado. No necesitas la plataforma para beneficiarte del framework.

Crawlee es el motor. Apify Platform es el chasis.

Pero hay un matiz importante que casi nadie explica: Crawlee no es solo una abstracción sobre Playwright. Es un runtime completo de orquestación. Cuando ejecutas un crawler con Crawlee, el framework no se limita a lanzar un navegador y navegar. Lo que hace internamente es:

Inicializar una cola de URLs (puede ser en memoria, SQLite, MongoDB o Redis)
Gestionar el estado de cada request: pendiente, en proceso, completado, fallado
Ejecutar un bucle de eventos que consume la cola, lanza navegadores (o sesiones HTTP con Cheerio) y procesa los resultados
Persistir el estado periódicamente para que si el proceso se cae, puedas reanudar desde donde lo dejaste
Aplicar políticas de reintentos configurables por tipo de error (timeout, HTTP 5xx, bloqueo por CAPTCHA)

Eso es un runtime serverless de scraping, no un mero wrapper. Y todo eso funciona localmente sin necesidad de la nube de Apify.

---

El Patrón de 5 Capas para Web Scraping Serverless con Crawlee

Este es el framework que uso en todos mis proyectos de scraping. Lo llamo "El Patrón de 5 Capas" :

1. Instalación y scaffold

El CLI genera un proyecto con soporte para Playwright, Puppeteer o Cheerio según elijas. Pero lo que realmente importa es la estructura que crea: separación entre lógica de crawling (qué URLs visitar) y lógica de extracción (qué datos sacar de cada página). Eso ya te obliga a escribir mejor código desde el minuto cero.

2. Configurar el Router para diferentes tipos de página

Usa enqueueLinks con labels para separar listados, detalles, búsqueda vacía. El Router decide automáticamente qué handler ejecutar según la URL. Pero el poder real está en que puedes encadenar rutas dinámicamente: al procesar un listado, encolas los enlaces de detalle; al procesar un detalle, encolas los enlaces de productos relacionados. El árbol de navegación se construye solo.

Esto no es solo comodidad. Es un cambio de paradigma: el scraper se vuelve declarativo. No escribes "cómo" navegar, escribes "qué" hacer cuando llegas a cada tipo de página.

3. Añadir persistencia y reintentos automáticos

Crawlee gestiona colas de URLs en memoria o en base de datos (SQLite, MongoDB, Redis). Configuras maxRequestRetries y persistStateIntervalSecs y olvídate. Pero hay un detalle que marca la diferencia: la persistencia es incremental. No guarda todo el estado cada vez, sino solo los cambios desde la última persistencia. Eso hace que el overhead sea mínimo incluso con colas de cientos de miles de URLs.

Además, Crawlee diferencia entre errores recuperables (timeout, 429 Too Many Requests, 503 Service Unavailable) y errores no recuperables (400 Bad Request, 404 Not Found). Los primeros reintentan automáticamente; los segundos se marcan como fallidos sin gastar reintentos. Esa inteligencia ya viene de serie.

4. Integrar proxies con Apify Proxy o cualquier otro

Activas proxies con una línea de configuración. Apify Proxy ofrece grupos específicos: GOOGLE_SERP para búsquedas de Google, RESIDENTIAL para sitios que bloquean datacenters, DATACENTER para alta velocidad.

Pero si no quieres usar Apify Proxy, Crawlee también acepta proxies personalizados. Puedes pasar una lista de URLs de proxies rotativos o incluso una función que decida qué proxy usar para cada request. El framework no te ata a ninguna infraestructura concreta.

5. Desplegar como Actor en Apify Platform

Creas un Dockerfile + input schema JSON y conviertes el scraper local en una API REST que se ejecuta en la nube de Apify. El input schema genera automáticamente una UI web para configurar ejecuciones.

Lo que hace potente este despliegue no es solo que se ejecute en la nube. Es que cada ejecución genera un dataset independiente, accesible por API, descargable en múltiples formatos (JSON, CSV, XML, Excel) y con almacenamiento persistente. Además, puedes programar ejecuciones periódicas (cada hora, cada día, cada semana) y recibir webhooks cuando terminen.

---

Ejemplo 1: Scraper Básico con Crawlee + Cheerio (Sin Navegador)

Aquí está lo mínimo que necesitas para scrapear sin navegador headless. Más rápido, más barato, y Crawlee gestiona colas y reintentos automáticamente:

Este código, sin Apify Platform, sin API key, sin nada:

Gestiona una cola de URLs internamente
Reintenta hasta 3 veces cada URL fallida
Persiste los datos en un dataset local (SQLite por defecto)
Logea cada paso

¿Cuánto código necesitarías con Puppeteer puro para replicar colas + reintentos + persistencia? Bastante.

Y lo que no se ve en el ejemplo: si ejecutas este scraper y lo interrumpes a mitad del proceso (Ctrl+C, fallo del sistema, lo que sea), al volver a ejecutarlo Crawlee retoma desde donde se quedó. La cola de URLs pendientes se ha persistido en SQLite. No pierdes el progreso. Eso, con Puppeteer o Playwright puro, te toca implementarlo tú.

---

Ejemplo 2: Migrar un Scraper de Puppeteer a Crawlee con Playwright

El caso más común: tienes un scraper con Puppeteer que funciona, pero es frágil. El Router de Crawlee simplifica el manejo de diferentes tipos de página:

Sin Crawlee, tendrías que escribir: un sistema de colas, un manejador de estados para persistir entre ejecuciones, lógica de reintentos, y el enqueue manual de URLs.

Con Crawlee, son 3 configuraciones y un requestHandler.

Pero hay una diferencia más sutil: el manejo de sesiones. Crawlee asocia automáticamente una sesión (con sus cookies, user-agent y proxy) a cada request. Si un request falla por un error de sesión (por ejemplo, el sitio detectó el navegador y lo bloqueó), Crawlee puede rotar la sesión y reintentar. En Playwright puro, gestionar sesiones implica o bien usar browserContext manualmente o reiniciar el navegador entero. Crawlee lo hace por ti a nivel de request.

---

Apify Proxy: No es un Simple Rotador de IPs

La mayoría trata Apify Proxy como "un proxy rotatorio". Y se pierde lo que realmente importa.

Apify Proxy ofrece grupos de proxies específicos optimizados para cada caso de uso:

GOOGLE_SERP: Evita bloqueos en búsquedas de Google
RESIDENTIAL: Para sitios que bloquean datacenters — IPs de ISP reales
DATACENTER: Alta velocidad para sitios sin restricciones geográficas

Cada grupo tiene políticas de rotación optimizadas para el tipo de sitio objetivo. Cambias de grupo con una línea de configuración, no reescribiendo lógica de proxies.

El ecosistema de integraciones de Apify permite encadenar Actores: un scraper de Google Maps puede alimentar un scraper de perfiles de LinkedIn, que a su vez envía datos a un CRM vía webhook.

Eso convierte Apify en una plataforma de automatización de pipelines de datos web, no solo en un hoster de scrapers independientes.

Pero incluso sin usar Apify Proxy, Crawlee te permite integrar cualquier servicio de proxies externo. Puedes pasar una función personalizada que decida qué proxy usar para cada request basándose en la URL, el dominio o el tipo de página. La flexibilidad está ahí aunque nunca pagues un céntimo a Apify.

---

El Caso de Uso que Nadie Menciona: Automatización de Pipelines de Datos

Cuando la gente piensa en web scraping, imagina un script que extrae datos de una página y los guarda en un CSV. Pero el mundo real es más complejo: los pipelines de datos web suelen implicar múltiples fuentes, transformaciones y destinos.

Apify Platform permite encadenar Actores: el output de un Actor se convierte automáticamente en el input de otro. Por ejemplo:

Actor A: Scrapea Google Maps para obtener una lista de restaurantes en Madrid
Actor B: Para cada restaurante, scrapea su página web para obtener el menú y el horario
Actor C: Envía los datos combinados a un Google Sheet o a un CRM vía webhook

Este encadenamiento se configura desde la UI de Apify sin escribir código de integración. Y cada Actor puede ejecutarse en paralelo o en serie, con gestión automática de errores y reintentos.

Para el desarrollador, esto significa que puedes dividir un problema complejo de scraping en micro-servicios independientes, cada uno con su propia lógica, sus propios proxies y su propia configuración de reintentos. Y todo orquestado por la plataforma.

---

Cómo Empezar Hoy (Sin Pagar Nada)

Instala Crawlee localmente: npx crawlee create my-scraper
Elige Playwright o Cheerio según necesites renderizado JS o no
Ejecuta tu primer scraper: npm start
Prototipa y prueba todo offline sin crear cuenta en Apify
Solo cuando necesites ejecución serverless o proxies: despliega como Actor

El plan gratuito de Apify incluye crédito mensual para ejecución y 1.000 páginas al mes con proxies gratuitos. Suficiente para validar cualquier proyecto.

Y si lo tuyo es el desarrollo de agentes de IA, Apify se está posicionando como la capa de extracción de datos para modelos como Grok o GPT. Herramientas como Grok Build (el nuevo coding agent de xAI) ya están explorando cómo integrar fuentes de datos web en tiempo real. Crawlee, con su capacidad de ejecución serverless y su ecosistema de Actores encadenables, es el tejido conectivo perfecto para que un agente de IA obtenga datos frescos de la web sin tener que implementar scraping desde cero.

---

El Framework, no la Plataforma

La confusión entre Apify y Crawlee le cuesta tiempo al 90% de los desarrolladores.

Crawlee te da orquestación serverless, colas de URLs, reintentos y proxies sin escribir infraestructura manualmente. Y es gratis.

*La pregunta no es si Apify es caro. Es si puedes permitirte seguir escribiendo a mano código que Crawlee ya resuelve. *

Usa el framework. Ignora el ruido. Y la próxima vez que escribas un scraper, pregúntate: ¿cuántas horas voy a perder reinventando colas y reintentos?