machine learning melhor soluÇÃo. - qcon são paulo … · probabilidade e estatÍstica. variÁvel...
TRANSCRIPT
![Page 1: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-](https://reader033.vdocuments.com.br/reader033/viewer/2022051603/5be6d19d09d3f27e3c8b7216/html5/thumbnails/1.jpg)
![Page 2: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-](https://reader033.vdocuments.com.br/reader033/viewer/2022051603/5be6d19d09d3f27e3c8b7216/html5/thumbnails/2.jpg)
MACHINE LEARNING RESOLVE MUITA COISA
MAS NÃO É SEMPRE A MELHOR SOLUÇÃO.
![Page 3: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-](https://reader033.vdocuments.com.br/reader033/viewer/2022051603/5be6d19d09d3f27e3c8b7216/html5/thumbnails/3.jpg)
DETECTAR PLÁGIO EM BILHÕES DE TEXTOS
![Page 4: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-](https://reader033.vdocuments.com.br/reader033/viewer/2022051603/5be6d19d09d3f27e3c8b7216/html5/thumbnails/4.jpg)
DETECTAR SIMILARIDADE EM BANCOS DE DADOS DE
IMAGENS
![Page 5: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-](https://reader033.vdocuments.com.br/reader033/viewer/2022051603/5be6d19d09d3f27e3c8b7216/html5/thumbnails/5.jpg)
ESTIMAR INTERSEÇÃO DE CONJUNTOS, SEM PRECISAR TÊ-LOS
PRÓXIMOS GEOGRAFICAMENTE.
![Page 6: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-](https://reader033.vdocuments.com.br/reader033/viewer/2022051603/5be6d19d09d3f27e3c8b7216/html5/thumbnails/6.jpg)
ALEATORIEDADE NO CORAÇÃO DOS ALGORITMOS DO FUTURO
![Page 7: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-](https://reader033.vdocuments.com.br/reader033/viewer/2022051603/5be6d19d09d3f27e3c8b7216/html5/thumbnails/7.jpg)
● PAI DO MIGUEL
● BACHAREL E QUASE MESTRE
● PROGRAMADOR
● VICIADO EM COMPETIÇÕES
QUEM É JUAN LOPES?
![Page 8: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-](https://reader033.vdocuments.com.br/reader033/viewer/2022051603/5be6d19d09d3f27e3c8b7216/html5/thumbnails/8.jpg)
SLIDES, LINKS E DEMOS
TWITTER E GITHUB
![Page 9: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-](https://reader033.vdocuments.com.br/reader033/viewer/2022051603/5be6d19d09d3f27e3c8b7216/html5/thumbnails/9.jpg)
ALGORITMOS RANDOMIZADOS
![Page 10: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-](https://reader033.vdocuments.com.br/reader033/viewer/2022051603/5be6d19d09d3f27e3c8b7216/html5/thumbnails/10.jpg)
● HASHTABLES
● GERAÇÃO DE PARES DE CHAVES CRIPTOGRÁFICAS
● RANDOMIZED QUICKSORT
ALGORITMOS RANDOMIZADOS
![Page 11: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-](https://reader033.vdocuments.com.br/reader033/viewer/2022051603/5be6d19d09d3f27e3c8b7216/html5/thumbnails/11.jpg)
![Page 12: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-](https://reader033.vdocuments.com.br/reader033/viewer/2022051603/5be6d19d09d3f27e3c8b7216/html5/thumbnails/12.jpg)
RANDOMIZED ALGORITHMS
![Page 13: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-](https://reader033.vdocuments.com.br/reader033/viewer/2022051603/5be6d19d09d3f27e3c8b7216/html5/thumbnails/13.jpg)
![Page 14: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-](https://reader033.vdocuments.com.br/reader033/viewer/2022051603/5be6d19d09d3f27e3c8b7216/html5/thumbnails/14.jpg)
INTRODUÇÃO AOS ALGORITMOS RANDOMIZADOS
![Page 15: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-](https://reader033.vdocuments.com.br/reader033/viewer/2022051603/5be6d19d09d3f27e3c8b7216/html5/thumbnails/15.jpg)
MINING OF MASSIVE DATASETS
![Page 16: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-](https://reader033.vdocuments.com.br/reader033/viewer/2022051603/5be6d19d09d3f27e3c8b7216/html5/thumbnails/16.jpg)
ALGORITMOS RANDOMIZADOS
PROBABILÍSTICOS
![Page 17: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-](https://reader033.vdocuments.com.br/reader033/viewer/2022051603/5be6d19d09d3f27e3c8b7216/html5/thumbnails/17.jpg)
VAMOS FALAR DE POLÍTICA?
![Page 18: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-](https://reader033.vdocuments.com.br/reader033/viewer/2022051603/5be6d19d09d3f27e3c8b7216/html5/thumbnails/18.jpg)
QUAL É A BASE TEÓRICA DE UMA PESQUISA ELEITORAL?
![Page 19: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-](https://reader033.vdocuments.com.br/reader033/viewer/2022051603/5be6d19d09d3f27e3c8b7216/html5/thumbnails/19.jpg)
QUAL É A BASE TEÓRICA DE UMA ESTIMATIVA DE PARTICIPANTES?
![Page 20: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-](https://reader033.vdocuments.com.br/reader033/viewer/2022051603/5be6d19d09d3f27e3c8b7216/html5/thumbnails/20.jpg)
PROBABILIDADE E ESTATÍSTICA
![Page 21: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-](https://reader033.vdocuments.com.br/reader033/viewer/2022051603/5be6d19d09d3f27e3c8b7216/html5/thumbnails/21.jpg)
VARIÁVEL ALEATÓRIA X
![Page 22: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-](https://reader033.vdocuments.com.br/reader033/viewer/2022051603/5be6d19d09d3f27e3c8b7216/html5/thumbnails/22.jpg)
VARIÁVEL ALEATÓRIA X
ROLAGEM DE DADO DE 6 LADOS
![Page 23: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-](https://reader033.vdocuments.com.br/reader033/viewer/2022051603/5be6d19d09d3f27e3c8b7216/html5/thumbnails/23.jpg)
ESTIMADORES NÃO-ENVIESADOS
![Page 24: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-](https://reader033.vdocuments.com.br/reader033/viewer/2022051603/5be6d19d09d3f27e3c8b7216/html5/thumbnails/24.jpg)
COMO CRIAR UMA VARIÁVEL ALEATÓRIA QUE ESTIME
ALGUM VALOR IMPORTANTE?
![Page 25: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-](https://reader033.vdocuments.com.br/reader033/viewer/2022051603/5be6d19d09d3f27e3c8b7216/html5/thumbnails/25.jpg)
A OPINIÃO DE UM INDIVÍDUO ALEATÓRIO EM UMA
POPULAÇÃO É UM ESTIMADOR DA OPINIÃO DA POPULAÇÃO
![Page 26: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-](https://reader033.vdocuments.com.br/reader033/viewer/2022051603/5be6d19d09d3f27e3c8b7216/html5/thumbnails/26.jpg)
A QUANTIDADE DE PESSOAS EM UM TRECHO DE UMA
MANIFESTAÇÃO É UM ESTIMADOR DO NÚMERO
TOTAL DE PESSOAS
![Page 27: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-](https://reader033.vdocuments.com.br/reader033/viewer/2022051603/5be6d19d09d3f27e3c8b7216/html5/thumbnails/27.jpg)
COMPOSIÇÃO DE ESTIMADORES DIMINUI A VARIÂNCIA
![Page 28: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-](https://reader033.vdocuments.com.br/reader033/viewer/2022051603/5be6d19d09d3f27e3c8b7216/html5/thumbnails/28.jpg)
● FILTRO DE BLOOM [Blo70]
● CM-SKETCH [CM05]
● MINHASH [Bro97]
● HYPERLOGLOG [FFGM08]
ESTRUTURAS PROBABILÍSTICAS
![Page 29: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-](https://reader033.vdocuments.com.br/reader033/viewer/2022051603/5be6d19d09d3f27e3c8b7216/html5/thumbnails/29.jpg)
1970 19901980 2000 2010
LINHA DO TEMPO
FILTRO DE BLOOM [Blo70]
FM-SKETCH [FM85]
MINHASH [Bro97]
KMV-SKETCH [BYJK+02]
LSH THEORY [IM98]
SIMHASH [Cha02]
LOGLOG [DF03]
AMS PAPER [AMS96]
CM-SKETCH [CM05]
HYPERLOGLOG [FFGM08]
SPECTRAL BLOOM [CM03]
![Page 30: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-](https://reader033.vdocuments.com.br/reader033/viewer/2022051603/5be6d19d09d3f27e3c8b7216/html5/thumbnails/30.jpg)
– DONALD KNUTH
HASH FUNCTIONS
![Page 31: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-](https://reader033.vdocuments.com.br/reader033/viewer/2022051603/5be6d19d09d3f27e3c8b7216/html5/thumbnails/31.jpg)
HASH FUNCTIONS
xh(x)
0: 50%
1: 50%
0: 50%
1: 50%
0: 50%
1: 50%
…
![Page 32: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-](https://reader033.vdocuments.com.br/reader033/viewer/2022051603/5be6d19d09d3f27e3c8b7216/html5/thumbnails/32.jpg)
MINHASH
[Bro97] Andrei Z Broder. On the resemblance and containment of documents. In Compression and Complexity of Sequences 1997. Proceedings, pages 21–29. IEEE, 1997.
![Page 33: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-](https://reader033.vdocuments.com.br/reader033/viewer/2022051603/5be6d19d09d3f27e3c8b7216/html5/thumbnails/33.jpg)
MINHASH
● VARIÁVEL DE BERNOULLI
● ÍNDICE DE JACCARD
● DUAS VARIANTES
![Page 34: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-](https://reader033.vdocuments.com.br/reader033/viewer/2022051603/5be6d19d09d3f27e3c8b7216/html5/thumbnails/34.jpg)
MINHASH, COM CALMA
A B
![Page 35: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-](https://reader033.vdocuments.com.br/reader033/viewer/2022051603/5be6d19d09d3f27e3c8b7216/html5/thumbnails/35.jpg)
A B
MINHASH, COM CALMA
![Page 36: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-](https://reader033.vdocuments.com.br/reader033/viewer/2022051603/5be6d19d09d3f27e3c8b7216/html5/thumbnails/36.jpg)
A BA B
MINHASH, COM CALMA
![Page 37: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-](https://reader033.vdocuments.com.br/reader033/viewer/2022051603/5be6d19d09d3f27e3c8b7216/html5/thumbnails/37.jpg)
CALMA!
![Page 38: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-](https://reader033.vdocuments.com.br/reader033/viewer/2022051603/5be6d19d09d3f27e3c8b7216/html5/thumbnails/38.jpg)
MINHASH
● CADA FUNÇÃO DEFINE UM ESTIMADOR NÃO-ENVIESADO
● MÚLTIPLAS FUNÇÕES DE HASH
● COMPARAÇÃO DOS VALORES DE CADA ASSINATURA
![Page 39: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-](https://reader033.vdocuments.com.br/reader033/viewer/2022051603/5be6d19d09d3f27e3c8b7216/html5/thumbnails/39.jpg)
MINHASH
● ASSINATURA DEFINIDA POR K MENORES VALORES
● TAMBÉM É VARIÁVEL DE BERNOULLI
● COMPARAÇÃO DOS VALORES DE CADA ASSINATURA
![Page 40: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-](https://reader033.vdocuments.com.br/reader033/viewer/2022051603/5be6d19d09d3f27e3c8b7216/html5/thumbnails/40.jpg)
MINHASH
● PODE SER 1 COM PROBABILIDADE p E 0 COM PROBABILIDADE 1-p
![Page 41: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-](https://reader033.vdocuments.com.br/reader033/viewer/2022051603/5be6d19d09d3f27e3c8b7216/html5/thumbnails/41.jpg)
MINHASH
![Page 42: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-](https://reader033.vdocuments.com.br/reader033/viewer/2022051603/5be6d19d09d3f27e3c8b7216/html5/thumbnails/42.jpg)
MINHASH
● 42 OBRAS DE SHAKESPEARE
● 84 DOCUMENTOS NO TOTAL
● 0 ≤ K ≤ 1000
![Page 43: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-](https://reader033.vdocuments.com.br/reader033/viewer/2022051603/5be6d19d09d3f27e3c8b7216/html5/thumbnails/43.jpg)
MINHASH
S1 S2 S3 S4 S5
h1
h2
h3
h4
h5
h6
h7
h8
![Page 44: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-](https://reader033.vdocuments.com.br/reader033/viewer/2022051603/5be6d19d09d3f27e3c8b7216/html5/thumbnails/44.jpg)
MINHASH
S1 S2 S3 S4 S5
h1
h2
h3
h4
h5
h6
h7
h8
r=2}
![Page 45: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-](https://reader033.vdocuments.com.br/reader033/viewer/2022051603/5be6d19d09d3f27e3c8b7216/html5/thumbnails/45.jpg)
MINHASH
S1 S2 S3 S4 S5
r1
h1
h2
r2
h3
h4
r3
h5
h6
r4
h7
h8
} r=2{b=4
![Page 46: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-](https://reader033.vdocuments.com.br/reader033/viewer/2022051603/5be6d19d09d3f27e3c8b7216/html5/thumbnails/46.jpg)
MINHASH
S1 S2 S3 S4 S5
r1
h1
h2
r2
h3
h4
r3
h5
h6
r4
h7
h8
S1 S4
![Page 47: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-](https://reader033.vdocuments.com.br/reader033/viewer/2022051603/5be6d19d09d3f27e3c8b7216/html5/thumbnails/47.jpg)
MINHASH
S1 S2 S3 S4 S5
r1
h1
h2
r2
h3
h4
r3
h5
h6
r4
h7
h8
S2 S5
S1 S4
![Page 48: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-](https://reader033.vdocuments.com.br/reader033/viewer/2022051603/5be6d19d09d3f27e3c8b7216/html5/thumbnails/48.jpg)
MINHASH
S1 S2 S3 S4 S5
r1
h1
h2
r2
h3
h4
r3
h5
h6
r4
h7
h8
S2 S5
S2 S5
S1 S4
![Page 49: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-](https://reader033.vdocuments.com.br/reader033/viewer/2022051603/5be6d19d09d3f27e3c8b7216/html5/thumbnails/49.jpg)
MINHASH
S1 S2 S3 S4 S5
r1
h1
h2
r2
h3
h4
r3
h5
h6
r4
h7
h8
S1 S4
S2 S5
S2 S5
S2 S5
S2 S5
S2 S5
S1 S4
![Page 50: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-](https://reader033.vdocuments.com.br/reader033/viewer/2022051603/5be6d19d09d3f27e3c8b7216/html5/thumbnails/50.jpg)
MINHASH
S1 S2 S3 S4 S5
r1
h1
h2
r2
h3
h4
r3
h5
h6
r4
h7
h8
S1 S4
S2 S5
S2 S5
S2 S5 S1 S4
S2 S5
S2 S5
S1 S4
![Page 51: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-](https://reader033.vdocuments.com.br/reader033/viewer/2022051603/5be6d19d09d3f27e3c8b7216/html5/thumbnails/51.jpg)
MINHASH
● PROBABILIDADE DE UM PAR SER ESCOLHIDO DEPENDE DA SIMILARIDADE ENTRE OS CONJUNTOS
![Page 52: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-](https://reader033.vdocuments.com.br/reader033/viewer/2022051603/5be6d19d09d3f27e3c8b7216/html5/thumbnails/52.jpg)
MINHASH
● PROBABILIDADE DE UM PAR SER ESCOLHIDO DEPENDE DA SIMILARIDADE ENTRE OS CONJUNTOS
![Page 53: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-](https://reader033.vdocuments.com.br/reader033/viewer/2022051603/5be6d19d09d3f27e3c8b7216/html5/thumbnails/53.jpg)
MINHASH
● 42 OBRAS DE SHAKESPEARE
● 84 DOCUMENTOS NO TOTAL
● K = 512
![Page 54: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-](https://reader033.vdocuments.com.br/reader033/viewer/2022051603/5be6d19d09d3f27e3c8b7216/html5/thumbnails/54.jpg)
SIMHASH
![Page 55: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-](https://reader033.vdocuments.com.br/reader033/viewer/2022051603/5be6d19d09d3f27e3c8b7216/html5/thumbnails/55.jpg)
SIMHASH
![Page 56: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-](https://reader033.vdocuments.com.br/reader033/viewer/2022051603/5be6d19d09d3f27e3c8b7216/html5/thumbnails/56.jpg)
SIMHASH
r ⃗
u ⃗v ⃗
![Page 57: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-](https://reader033.vdocuments.com.br/reader033/viewer/2022051603/5be6d19d09d3f27e3c8b7216/html5/thumbnails/57.jpg)
SIMHASH
● FUNÇÃO DE HASH DEFINIDA POR VETOR ALEATÓRIO
● ESTIMATIVA DO MENOR ÂNGULO ENTRE DOIS VETORES
![Page 58: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-](https://reader033.vdocuments.com.br/reader033/viewer/2022051603/5be6d19d09d3f27e3c8b7216/html5/thumbnails/58.jpg)
SIMHASH
● REPRESENTAÇÃO COMPACTA
● COMPUTAÇÃO EFICIENTE
● REPRESENTA MULTICONJUNTOS FACILMENTE
![Page 59: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-](https://reader033.vdocuments.com.br/reader033/viewer/2022051603/5be6d19d09d3f27e3c8b7216/html5/thumbnails/59.jpg)
![Page 60: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-](https://reader033.vdocuments.com.br/reader033/viewer/2022051603/5be6d19d09d3f27e3c8b7216/html5/thumbnails/60.jpg)
HYPERLOGLOG
[FFGM08] Philippe Flajolet, Éric Fusy, Olivier Gandouet, and Frédéric Meunier. Hyperloglog: the analysis of a near-optimal cardinality estimation algorithm. DMTCS Proceedings, (1), 2008.
![Page 61: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-](https://reader033.vdocuments.com.br/reader033/viewer/2022051603/5be6d19d09d3f27e3c8b7216/html5/thumbnails/61.jpg)
É COMO ESTIMAR O NÚMERO DE PESSOAS EM UMA
MULTIDÃO PELA ALTURA DA MAIOR PESSOA
![Page 62: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-](https://reader033.vdocuments.com.br/reader033/viewer/2022051603/5be6d19d09d3f27e3c8b7216/html5/thumbnails/62.jpg)
HYPERLOGLOG
● BASEIA-SE NA OBSERVAÇÃO DO PADRÃO DE BITS
![Page 63: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-](https://reader033.vdocuments.com.br/reader033/viewer/2022051603/5be6d19d09d3f27e3c8b7216/html5/thumbnails/63.jpg)
HYPERLOGLOG
0
0
0
0
0
0
0
0
![Page 64: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-](https://reader033.vdocuments.com.br/reader033/viewer/2022051603/5be6d19d09d3f27e3c8b7216/html5/thumbnails/64.jpg)
HYPERLOGLOG
A
0
0
0
3
0
0
0
0
01000101
![Page 65: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-](https://reader033.vdocuments.com.br/reader033/viewer/2022051603/5be6d19d09d3f27e3c8b7216/html5/thumbnails/65.jpg)
HYPERLOGLOG
B
0
0
0
3
0
0
1
0
11010011
![Page 66: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-](https://reader033.vdocuments.com.br/reader033/viewer/2022051603/5be6d19d09d3f27e3c8b7216/html5/thumbnails/66.jpg)
HYPERLOGLOG
C
0
0
0
5
0
0
1
0
01000001
![Page 67: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-](https://reader033.vdocuments.com.br/reader033/viewer/2022051603/5be6d19d09d3f27e3c8b7216/html5/thumbnails/67.jpg)
HYPERLOGLOG
C
0
0
0
5
0
0
1
0
01000001
CADA POSIÇÃO NESTE ARRAY DE EXEMPLO USA APENAS 3 BITS
![Page 68: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-](https://reader033.vdocuments.com.br/reader033/viewer/2022051603/5be6d19d09d3f27e3c8b7216/html5/thumbnails/68.jpg)
HYPERLOGLOG
C
0
0
0
5
0
0
1
0
01000001
![Page 69: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-](https://reader033.vdocuments.com.br/reader033/viewer/2022051603/5be6d19d09d3f27e3c8b7216/html5/thumbnails/69.jpg)
HYPERLOGLOG
● SE O VALOR ESTIMADO FOR MUITO BAIXO (<2.5M), USA-SE LINEAR COUNTING NO MESMO VETOR
● A ESTIMATIVA TEM UM VIÉS MULTIPLICATIVO CONSTANTE QUE PRECISA SER CORRIGIDO
![Page 70: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-](https://reader033.vdocuments.com.br/reader033/viewer/2022051603/5be6d19d09d3f27e3c8b7216/html5/thumbnails/70.jpg)
“LOGLOG” VEM DA QUANTIDADE DE MEMÓRIA NECESSARIA PARA CADA
SUBFLUXO.LOGLOG(2^32) = 5 BITS
![Page 71: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-](https://reader033.vdocuments.com.br/reader033/viewer/2022051603/5be6d19d09d3f27e3c8b7216/html5/thumbnails/71.jpg)
HYPERLOGLOG++
![Page 72: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-](https://reader033.vdocuments.com.br/reader033/viewer/2022051603/5be6d19d09d3f27e3c8b7216/html5/thumbnails/72.jpg)
HYPERLOGLOG++
![Page 73: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-](https://reader033.vdocuments.com.br/reader033/viewer/2022051603/5be6d19d09d3f27e3c8b7216/html5/thumbnails/73.jpg)
COMO ENGENHEIROS RESOLVEM PROBLEMAS:
goo.gl/iU8Ig
18 PÁGINAS DE CONSTANTES
![Page 74: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-](https://reader033.vdocuments.com.br/reader033/viewer/2022051603/5be6d19d09d3f27e3c8b7216/html5/thumbnails/74.jpg)
HYPERLOGLOG
![Page 75: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-](https://reader033.vdocuments.com.br/reader033/viewer/2022051603/5be6d19d09d3f27e3c8b7216/html5/thumbnails/75.jpg)
HYPERLOGLOG
● 42 OBRAS DE SHAKESPEARE
![Page 76: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-](https://reader033.vdocuments.com.br/reader033/viewer/2022051603/5be6d19d09d3f27e3c8b7216/html5/thumbnails/76.jpg)
OPERAÇÕES SOBRE HYPERLOGLOGS
![Page 77: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-](https://reader033.vdocuments.com.br/reader033/viewer/2022051603/5be6d19d09d3f27e3c8b7216/html5/thumbnails/77.jpg)
INTERSEÇÃO DE HYPERLOGLOGS
● IDEIA SIMPLES
● O PROBLEMA
![Page 78: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-](https://reader033.vdocuments.com.br/reader033/viewer/2022051603/5be6d19d09d3f27e3c8b7216/html5/thumbnails/78.jpg)
INTERSEÇÃO DE HYPERLOGLOGS
● MINHASH × HYPERLOGLOG
● ERRO CONTROLADO
![Page 79: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-](https://reader033.vdocuments.com.br/reader033/viewer/2022051603/5be6d19d09d3f27e3c8b7216/html5/thumbnails/79.jpg)
● SÃO MUITO IMPORTANTES QUANDO HÁ RESTRIÇÃO DE RECURSOS
● ÁREA DE PESQUISA RECENTE
● ATRAI MUITO INTERESSE DOS BIG PLAYERS
● IMPLEMENTAR É MAIS SIMPLES QUE EXPLICAR
ESTRUTURAS PROBABILÍSTICAS
![Page 80: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-](https://reader033.vdocuments.com.br/reader033/viewer/2022051603/5be6d19d09d3f27e3c8b7216/html5/thumbnails/80.jpg)
SLIDES, LINKS E DEMOS
TWITTER E GITHUB
PERGUNTAS?
![Page 81: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-](https://reader033.vdocuments.com.br/reader033/viewer/2022051603/5be6d19d09d3f27e3c8b7216/html5/thumbnails/81.jpg)
OBRIGADO!