desbravando o mundo dos webcrawlers

26
Desbravando o mundo dos webcrawlers Curso Full-stack mobile Developer :: Ionic Framework João Gabriel Lima @jgabriel_lima www.jgabriellima.com

Upload: joao-gabriel-lima

Post on 18-Feb-2017

513 views

Category:

Technology


1 download

TRANSCRIPT

Page 1: Desbravando o mundo dos webcrawlers

Desbravando o mundo dos webcrawlersCurso Full-stack mobile Developer :: Ionic Framework

João Gabriel Lima

@jgabriel_limawww.jgabriellima.com

Page 2: Desbravando o mundo dos webcrawlers

Sobre o autor

Page 3: Desbravando o mundo dos webcrawlers

http://github.com/jgabriellima

IT Hacker - software e hardware, Arquiteto de soluções, Instrutor em

treinamentos e Co-fundador da Huddle3

Mestre em Computação Aplicada com ênfase em Inteligência

Artificial, Mineração de Dados e BigData.

Page 4: Desbravando o mundo dos webcrawlers

O que é?

Page 5: Desbravando o mundo dos webcrawlers

O que é um webcrawler?

Web crawler, em português rastreador web, é um programa de computador que navega pela World Wide Web de uma forma metódica e automatizada. Outros termos para Web crawlers são indexadores automáticos, bots, web spiders, Web robot, ou Web scutter.

Page 6: Desbravando o mundo dos webcrawlers

Exemplos

Page 7: Desbravando o mundo dos webcrawlers

Exemplos

● DataparkSearch● Wget● HTTrack● JSpider● Methabot● Pavuk● WebSPHINX● YaCy● Crawljax● Yahoo! Slurp é o nome do crawler do Yahoo!.● Msnbot é o nome do crawler do Bing - Microsoft.● Googlebot é o nome do crawler do Google.● Methabot é um crawler com suporte a scripting escrito em C.● arachnode.net é um Web crawler open-source usando a plataforma .NET e escrito em C#● Goutte[3] é um Web Scraper para criar um crawler desenvolvido em PHP por Fabien Potencier

usando o Symfony.● DuckDuckBot é o web crawler do DuckDuckGo.● Patent2net é um crawler especializado em encontrar, organizar e disponibilizar patentes

depositadas na Espacenet.● OpenWebSpider - http://www.openwebspider.org

Page 8: Desbravando o mundo dos webcrawlers

Outras soluções

Page 9: Desbravando o mundo dos webcrawlers

github.com/jgabriellimaDiversos projetos, incluindo webcrawler’s para os mais diversos fins

Page 10: Desbravando o mundo dos webcrawlers

https://github.com/jgabriellima/venom-telelista

Page 11: Desbravando o mundo dos webcrawlers

https://github.com/jgabriellima/webcrowler-allitbooks

Page 12: Desbravando o mundo dos webcrawlers

https://github.com/jgabriellima/node-web-scraper

Page 13: Desbravando o mundo dos webcrawlers

https://github.com/jgabriellima/palcomp3webcrowler

Page 14: Desbravando o mundo dos webcrawlers

https://github.com/jgabriellima/wsmarine

Page 15: Desbravando o mundo dos webcrawlers

https://github.com/jgabriellima/paniconamaws

Page 16: Desbravando o mundo dos webcrawlers

Por onde começar?

Page 17: Desbravando o mundo dos webcrawlers

Entendendo a arquitetura de um webcrawler

Page 18: Desbravando o mundo dos webcrawlers

Escolhendo a tecnologia...

Page 19: Desbravando o mundo dos webcrawlers
Page 20: Desbravando o mundo dos webcrawlers

http://zombie.js.org/

Page 21: Desbravando o mundo dos webcrawlers

https://github.com/cheeriojs/cheerio

Page 22: Desbravando o mundo dos webcrawlers

https://github.com/request/request

Page 23: Desbravando o mundo dos webcrawlers

http://phantomjs.org/

Page 24: Desbravando o mundo dos webcrawlers

{ "name": "Webcrowler :: Curso 'Full-stack mobile developer' Ionic Framework", "private": true, "version": "0.0.1", "description": "webcrowler for get any", "keywords": [], "dependencies": {

"zombie": "4.0.8","cheerio": "*","nedb": "*","request": "*","simple-ssh": "*","ssh2": "*","request":"*"

}, "repository": {

"type": "","url": ""

}, "author": "jgabriellima", "license": "MIT", "devDependencies": {

"electron-packager": "^5.0.1" }}

package.json

Dependências para o projeto do webcrawler

Page 25: Desbravando o mundo dos webcrawlers
Page 26: Desbravando o mundo dos webcrawlers

Desbravando o mundo dos webcrawlersCurso Full-stack mobile Developer :: Ionic Framework

João Gabriel Lima

@jgabriel_limawww.jgabriellima.com