desenvolvendo web crawler/scraper com python

Desenvolvendo web crawler/scraper com

Python

G e e k N i g h t

Web Crawler

● Spider, robôs

● Começa com uma lista de URL's para visitar. A cada URL visitada, ele identifica os hyperlinks e os guarda para visitá-los no futuro, e também copia o conteúdo da página.

● GoogleBot, Yahoo Slurp,DuckDuckBot...

Web Scraper

● Extrai informações de um web site.

● Relacionado com web indexing.

● Transformação de dados.

Trabalho de um crawler/scraper

● Abrir um link

● Cópia e/ou manipulação do dado

Seletores

● Xpath

● CSS Selectors

Retirado do site http://ejohn.org/blog/xpath-css-selectors/

import request

● Para humanos

● urllib2

● Uma implementação em Python das bibliotecas em C libxml2 e libxslt para parse de xml e html.

●Suporta css selector e xpath.

BeautifulSoup

PySpider

Scrapy

● Open Source framework, poderoso para crawling e scraping. Python 2.

● Suporta o uso de xpath e css selectors.

● Formatos de saída: json, csv, xml, json lines

● Há exemplos com persistência em banco.

Scrapy

scrapy crawl bbcnews --output results.json Retirado do site http://scraping.pro/

Bibliotecas em Python

● Goose

● Pyquery

Obrigada!

Roselma Mendes

rmendes@thoughtworks.com

github.com/roselmamendes

desenvolvendo web crawler/scraper com python

Internet

python introdução

009 - programando em python -...

volvo brochure crawler excavator ec210d portuguese

hello python

python - introdução

linguagem python

python introdução

python módulo básico - introdução a linguagem python

python nordeste 2016 - apresentação python brasil

web crawler

porque python?

python embrapa

python bge

palestra python

curso python

1 apresentando python marcel pinheiro caraciolo python aula...

introdução a python - python poli

curso de seo (search engine optimization)€¦ · o começo...

python científico

tdc2016poa | trilha python - python assíncrono: tudo ao...