Comecei a gostar do Firefox não como desenvolvedor da Web, mas como usuário, e o que me atraiu para esse novo e incrível navegador foi seu ecossistema de complementos. O complemento que eu mais usava? Raspadores da Web. A pirataria tinha acabado de se tornar popular e eu também precisava de imagens e documentação para criar meus primeiros sites. Os raspadores eram os complementos mais valiosos de todos os tempos!
Hoje em dia, escrever scrapers, mesmo sendo um engenheiro de software experiente, é um pesadelo. Armazenamento, CAPTCHA, DDOS/Proxies… para proteger nossos sites, matamos o scraper genérico em grande escala. Hoje em dia, o senhor precisa de um serviço como o scrapestackum raspador de sites de classe mundial que pode usar uma variedade de estratégias para obter o conteúdo que o senhor deseja sem as armadilhas e as barreiras intermediárias.
Resultados rápidos
- Gratuito para começar!
- Pode contornar CAPTCHAs para fornecer o conteúdo que o senhor deseja
- API simples que permite que o senhor defina seu próprio proxy
- 99,9% de tempo de atividade com mais de 1 bilhão de solicitações atendidas por mês
- Dos criadores do currencylayer, ipstack, caixa de correioe mais APIs sólidas como rocha
Comece inscrevendo-se gratuitamente – o senhor receberá imediatamente um token de API para usar, bem como instruções detalhadas de uso da API.
Uso básico
O uso mais básico inclui o envio de uma chave de API e um URL:
https://api.scrapestack.com/scrape?access_key=MY_API_KEY&url=https://davidwalsh.name]
O endereço a seguir extrai o código-fonte do site fornecido url
fornecido, permitindo que o senhor faça download, armazene-o ou simplesmente espelhe o conteúdo nesse endereço.
Atualmente, os sites são muito dinâmicos, portanto, o senhor pode até incluir os recursos JavaScript de uma determinada página:
https://api.scrapestack.com/scrape?access_key=MY_API_KEY&url=https://davidwalsh.name&render_js=1
O senhor também pode enviar informações de cabeçalho personalizadas com sua solicitação de raspagem:
curl --header "X-SomeHeader: SomeValue" \ "https://api.scrapestack.com/scrape?access_key=MY_API_KEY&url=https://davidwalsh.name"
O senhor também pode escolher o local de onde a solicitação deve se originar:
https://api.scrapestack.com/scrape?access_key=MY_API_KEY&url=https://davidwalsh.name& proxy_location=uk
E, é claro, o senhor pode escolher um tipo de solicitação:
curl -d 'key=value' \ -X POST \ "https://api.scrapestack.com/scrape?access_key=MY_API_KEY&url=https://davidwalsh.name"
A raspagem parece fácil até o senhor ser atingido por CAPTCHAs, limites de IP, restrições de região, utilitários de prevenção de DDoS e muito mais. scrapestack ajuda a evitar esses problemas e fornece o conteúdo que o senhor deseja sem precisar ser um especialista em todo o resto!