web scraping com puppeteer - amazon s3 · 2019-06-16 · web scraping É legal ou ilegal? tem se...

31
Web Scraping com Puppeteer Consuma sites client side de forma simples

Upload: others

Post on 25-Jul-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Web Scraping com Puppeteer - Amazon S3 · 2019-06-16 · WEB SCRAPING É LEGAL OU ILEGAL? Tem se tornado uma prática maliciosa utilizada por criminosos para roubar conteúdos protegidos

Web Scraping com Puppeteer

Consuma sites client side de forma simples

Page 2: Web Scraping com Puppeteer - Amazon S3 · 2019-06-16 · WEB SCRAPING É LEGAL OU ILEGAL? Tem se tornado uma prática maliciosa utilizada por criminosos para roubar conteúdos protegidos

Mas….

● O que é WebScraping?

● O que são sites client side?

● O que é o Puppetter?

Page 3: Web Scraping com Puppeteer - Amazon S3 · 2019-06-16 · WEB SCRAPING É LEGAL OU ILEGAL? Tem se tornado uma prática maliciosa utilizada por criminosos para roubar conteúdos protegidos

WEB SCRAPING

Page 4: Web Scraping com Puppeteer - Amazon S3 · 2019-06-16 · WEB SCRAPING É LEGAL OU ILEGAL? Tem se tornado uma prática maliciosa utilizada por criminosos para roubar conteúdos protegidos

Técnica de extração de

dados utilizada para coletar

dados de sites

Page 5: Web Scraping com Puppeteer - Amazon S3 · 2019-06-16 · WEB SCRAPING É LEGAL OU ILEGAL? Tem se tornado uma prática maliciosa utilizada por criminosos para roubar conteúdos protegidos

“É possível fazer o mesmo processo manualmente, mas

quando se fala de Web Scraping a ideia é automatizar

o trabalho.”

[Daniel Moraes]

Page 6: Web Scraping com Puppeteer - Amazon S3 · 2019-06-16 · WEB SCRAPING É LEGAL OU ILEGAL? Tem se tornado uma prática maliciosa utilizada por criminosos para roubar conteúdos protegidos

Formas de Uso

Page 7: Web Scraping com Puppeteer - Amazon S3 · 2019-06-16 · WEB SCRAPING É LEGAL OU ILEGAL? Tem se tornado uma prática maliciosa utilizada por criminosos para roubar conteúdos protegidos
Page 8: Web Scraping com Puppeteer - Amazon S3 · 2019-06-16 · WEB SCRAPING É LEGAL OU ILEGAL? Tem se tornado uma prática maliciosa utilizada por criminosos para roubar conteúdos protegidos

Ferramentas de WebScraping

Page 9: Web Scraping com Puppeteer - Amazon S3 · 2019-06-16 · WEB SCRAPING É LEGAL OU ILEGAL? Tem se tornado uma prática maliciosa utilizada por criminosos para roubar conteúdos protegidos

Nokogiri

AIOHTTP

Page 10: Web Scraping com Puppeteer - Amazon S3 · 2019-06-16 · WEB SCRAPING É LEGAL OU ILEGAL? Tem se tornado uma prática maliciosa utilizada por criminosos para roubar conteúdos protegidos

SitesClient SideSites processados apenas e diretamente pelo browser

Page 11: Web Scraping com Puppeteer - Amazon S3 · 2019-06-16 · WEB SCRAPING É LEGAL OU ILEGAL? Tem se tornado uma prática maliciosa utilizada por criminosos para roubar conteúdos protegidos

Server Side

URL é chamada Usuário clica em um link no site

axios + cheerio

Site é totalmente carregado em relação a url

Page 12: Web Scraping com Puppeteer - Amazon S3 · 2019-06-16 · WEB SCRAPING É LEGAL OU ILEGAL? Tem se tornado uma prática maliciosa utilizada por criminosos para roubar conteúdos protegidos

Client Side

URL é chamada

Site é totalmente carregado em relação a url

Usuário clica em um link

no site

Site atualiza URL

Carrega informações

Page 13: Web Scraping com Puppeteer - Amazon S3 · 2019-06-16 · WEB SCRAPING É LEGAL OU ILEGAL? Tem se tornado uma prática maliciosa utilizada por criminosos para roubar conteúdos protegidos

PUPPETEER

Page 14: Web Scraping com Puppeteer - Amazon S3 · 2019-06-16 · WEB SCRAPING É LEGAL OU ILEGAL? Tem se tornado uma prática maliciosa utilizada por criminosos para roubar conteúdos protegidos

MARIONETISTA

Page 15: Web Scraping com Puppeteer - Amazon S3 · 2019-06-16 · WEB SCRAPING É LEGAL OU ILEGAL? Tem se tornado uma prática maliciosa utilizada por criminosos para roubar conteúdos protegidos

Biblioteca de NodeJS que fornece uma API de alto nível para controlar o Chrome

ou o Chromium através do protocolo DevTools

Page 16: Web Scraping com Puppeteer - Amazon S3 · 2019-06-16 · WEB SCRAPING É LEGAL OU ILEGAL? Tem se tornado uma prática maliciosa utilizada por criminosos para roubar conteúdos protegidos

50,297

221

1,494

4,604

Page 17: Web Scraping com Puppeteer - Amazon S3 · 2019-06-16 · WEB SCRAPING É LEGAL OU ILEGAL? Tem se tornado uma prática maliciosa utilizada por criminosos para roubar conteúdos protegidos

Quem mantém o Puppeteer?

Page 18: Web Scraping com Puppeteer - Amazon S3 · 2019-06-16 · WEB SCRAPING É LEGAL OU ILEGAL? Tem se tornado uma prática maliciosa utilizada por criminosos para roubar conteúdos protegidos

Vantagens do Puppeteer

Page 19: Web Scraping com Puppeteer - Amazon S3 · 2019-06-16 · WEB SCRAPING É LEGAL OU ILEGAL? Tem se tornado uma prática maliciosa utilizada por criminosos para roubar conteúdos protegidos

Fornece uma biblioteca canônica

compacta que destaca os recursos

do protocolo DevTools

Page 20: Web Scraping com Puppeteer - Amazon S3 · 2019-06-16 · WEB SCRAPING É LEGAL OU ILEGAL? Tem se tornado uma prática maliciosa utilizada por criminosos para roubar conteúdos protegidos

Quase zero de sobrecarga de

desempenho em uma página automatizada

Page 21: Web Scraping com Puppeteer - Amazon S3 · 2019-06-16 · WEB SCRAPING É LEGAL OU ILEGAL? Tem se tornado uma prática maliciosa utilizada por criminosos para roubar conteúdos protegidos

Não requer configuração e vem junto com a versão

do Chromium com a qual ele funciona

melhor, facilitando muito o início

Page 22: Web Scraping com Puppeteer - Amazon S3 · 2019-06-16 · WEB SCRAPING É LEGAL OU ILEGAL? Tem se tornado uma prática maliciosa utilizada por criminosos para roubar conteúdos protegidos

Pode ser executado ou não no formato

headless

Page 23: Web Scraping com Puppeteer - Amazon S3 · 2019-06-16 · WEB SCRAPING É LEGAL OU ILEGAL? Tem se tornado uma prática maliciosa utilizada por criminosos para roubar conteúdos protegidos

COMO INSTALAR?

Page 24: Web Scraping com Puppeteer - Amazon S3 · 2019-06-16 · WEB SCRAPING É LEGAL OU ILEGAL? Tem se tornado uma prática maliciosa utilizada por criminosos para roubar conteúdos protegidos

COMO USAR?

Page 25: Web Scraping com Puppeteer - Amazon S3 · 2019-06-16 · WEB SCRAPING É LEGAL OU ILEGAL? Tem se tornado uma prática maliciosa utilizada por criminosos para roubar conteúdos protegidos

Uso básico

Page 26: Web Scraping com Puppeteer - Amazon S3 · 2019-06-16 · WEB SCRAPING É LEGAL OU ILEGAL? Tem se tornado uma prática maliciosa utilizada por criminosos para roubar conteúdos protegidos

Try Puppeteer

Page 27: Web Scraping com Puppeteer - Amazon S3 · 2019-06-16 · WEB SCRAPING É LEGAL OU ILEGAL? Tem se tornado uma prática maliciosa utilizada por criminosos para roubar conteúdos protegidos

LEGALIDADE DO WEB SCRAPING

Page 28: Web Scraping com Puppeteer - Amazon S3 · 2019-06-16 · WEB SCRAPING É LEGAL OU ILEGAL? Tem se tornado uma prática maliciosa utilizada por criminosos para roubar conteúdos protegidos

WEB SCRAPING É LEGAL OU ILEGAL?

● Tem se tornado uma prática maliciosa utilizada por criminosos

para roubar conteúdos protegidos e cometer fraudes;

● Muitas vezes é feito com total desconsideração das leis de

direitos autorais e dos Termos de Serviço;

● Usado para contornar medidas de segurança;

● “Não há nada que proíba uma empresa de lhe processar”;

Page 29: Web Scraping com Puppeteer - Amazon S3 · 2019-06-16 · WEB SCRAPING É LEGAL OU ILEGAL? Tem se tornado uma prática maliciosa utilizada por criminosos para roubar conteúdos protegidos
Page 30: Web Scraping com Puppeteer - Amazon S3 · 2019-06-16 · WEB SCRAPING É LEGAL OU ILEGAL? Tem se tornado uma prática maliciosa utilizada por criminosos para roubar conteúdos protegidos

FREE SOCCERAPI grátis com resultados de

competições nacionais de futebol

● 22 campeonatos

● 7 países

● 6 portais consumidos

Ferramentas:

● NodeJS

● Mongoose

● Cheerio

● Puppeteer/andrelmlins/freesoccer

Page 31: Web Scraping com Puppeteer - Amazon S3 · 2019-06-16 · WEB SCRAPING É LEGAL OU ILEGAL? Tem se tornado uma prática maliciosa utilizada por criminosos para roubar conteúdos protegidos

@andrelmlins

ANDRÉ LINS● Desenvolvedor FrontEnd ReactJS na Softplan● Graduado em Ciência da Computação pela

UFRPE● Pós-Graduando em Engenharia de Software pela

PUC Minas● Viciado em programação● Fundador do Projeto N.A.D.A.● Tentando não ser evangelista Javascript