desbravando o mundo dos webcrawlers

Post on 18-Feb-2017

513 Views

Category:

Technology

1 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Desbravando o mundo dos webcrawlersCurso Full-stack mobile Developer :: Ionic Framework

João Gabriel Lima

@jgabriel_limawww.jgabriellima.com

Sobre o autor

http://github.com/jgabriellima

IT Hacker - software e hardware, Arquiteto de soluções, Instrutor em

treinamentos e Co-fundador da Huddle3

Mestre em Computação Aplicada com ênfase em Inteligência

Artificial, Mineração de Dados e BigData.

O que é?

O que é um webcrawler?

Web crawler, em português rastreador web, é um programa de computador que navega pela World Wide Web de uma forma metódica e automatizada. Outros termos para Web crawlers são indexadores automáticos, bots, web spiders, Web robot, ou Web scutter.

Exemplos

Exemplos

● DataparkSearch● Wget● HTTrack● JSpider● Methabot● Pavuk● WebSPHINX● YaCy● Crawljax● Yahoo! Slurp é o nome do crawler do Yahoo!.● Msnbot é o nome do crawler do Bing - Microsoft.● Googlebot é o nome do crawler do Google.● Methabot é um crawler com suporte a scripting escrito em C.● arachnode.net é um Web crawler open-source usando a plataforma .NET e escrito em C#● Goutte[3] é um Web Scraper para criar um crawler desenvolvido em PHP por Fabien Potencier

usando o Symfony.● DuckDuckBot é o web crawler do DuckDuckGo.● Patent2net é um crawler especializado em encontrar, organizar e disponibilizar patentes

depositadas na Espacenet.● OpenWebSpider - http://www.openwebspider.org

Outras soluções

github.com/jgabriellimaDiversos projetos, incluindo webcrawler’s para os mais diversos fins

https://github.com/jgabriellima/venom-telelista

https://github.com/jgabriellima/webcrowler-allitbooks

https://github.com/jgabriellima/node-web-scraper

https://github.com/jgabriellima/palcomp3webcrowler

https://github.com/jgabriellima/wsmarine

https://github.com/jgabriellima/paniconamaws

Por onde começar?

Entendendo a arquitetura de um webcrawler

Escolhendo a tecnologia...

http://zombie.js.org/

https://github.com/cheeriojs/cheerio

https://github.com/request/request

http://phantomjs.org/

{ "name": "Webcrowler :: Curso 'Full-stack mobile developer' Ionic Framework", "private": true, "version": "0.0.1", "description": "webcrowler for get any", "keywords": [], "dependencies": {

"zombie": "4.0.8","cheerio": "*","nedb": "*","request": "*","simple-ssh": "*","ssh2": "*","request":"*"

}, "repository": {

"type": "","url": ""

}, "author": "jgabriellima", "license": "MIT", "devDependencies": {

"electron-packager": "^5.0.1" }}

package.json

Dependências para o projeto do webcrawler

Desbravando o mundo dos webcrawlersCurso Full-stack mobile Developer :: Ionic Framework

João Gabriel Lima

@jgabriel_limawww.jgabriellima.com

top related