mecanismos para o provimento de tolerância a faltas em ... · mecanismos para o provimento de...

18
Itajaí, Santa Catarina, Brasil Mecanismos para o provimento de tolerância a faltas em Redes-em-Chip Thiago Felski Pereira Cesar Albenes Zeferino Universidade do Vale do Itajaí UNIVALI Laboratório de Sistemas Embarcados e Distribuídos - LEDS

Upload: others

Post on 23-Jul-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Mecanismos para o provimento de tolerância a faltas em ... · Mecanismos para o Provimento de Tolerância a faltas em Redes-em-Chip Thiago Felski Pereira 5 Introdução Como todos

Itajaí, Santa Catarina, Brasil

Mecanismos para o provimento de tolerância a faltas em Redes-em-Chip

Thiago Felski Pereira

Cesar Albenes Zeferino

Universidade do Vale do Itajaí – UNIVALI Laboratório de Sistemas Embarcados e Distribuídos - LEDS

Page 2: Mecanismos para o provimento de tolerância a faltas em ... · Mecanismos para o Provimento de Tolerância a faltas em Redes-em-Chip Thiago Felski Pereira 5 Introdução Como todos

Mecanismos para o Provimento de Tolerância a faltas em Redes-em-Chip Thiago Felski Pereira

2

Sumário

Introdução

Adicionando tolerância a faltas à rede SoCIN

Resultados

Conclusões

Page 3: Mecanismos para o provimento de tolerância a faltas em ... · Mecanismos para o Provimento de Tolerância a faltas em Redes-em-Chip Thiago Felski Pereira 5 Introdução Como todos

Mecanismos para o Provimento de Tolerância a faltas em Redes-em-Chip Thiago Felski Pereira

3

Introdução

Rede-em-Chip (NoC – Network-on-Chip)

Arquitetura chaveada para comunicação entre núcleos em um sistema

intergrado em único chip (SoC)

Chaveamento por circuitos ou pacotes

Motivação para o uso de NoCs

Barramentos são reutilizáveis mas possuem desempenho limitado

NoCs oferecem

- Desempenho escalável

- Paralelismo em comunicação

- Reusabilidade

Page 4: Mecanismos para o provimento de tolerância a faltas em ... · Mecanismos para o Provimento de Tolerância a faltas em Redes-em-Chip Thiago Felski Pereira 5 Introdução Como todos

Mecanismos para o Provimento de Tolerância a faltas em Redes-em-Chip Thiago Felski Pereira

4

Introdução

Exemplo de NoC – SoCINfp

SoCIN – RASoC

- NoC escalável de baixo custo

- Roteadores parametrizáveis (Canais e Buffers)

- Roteamento estático

SoCINfp – ParIS

- ParIS possui + parametrização

- Controle de fluxo

- Buffers

- Roteamento

- Arbitragem

CPM

Lout

OFCFIFO

rok[ ]

wok

valret

dout

OC

gnt[ ]

idle

req[ ]

OWS

ODS

Lin

IFCFIFO

ICreq[ ]

idle[ ]

rok

wok[ ]

valret

din

IRS

din

wrwok

dout

rokrd

din

wrwok

dout

rokrd

Wout

OFCFIFO

rok[ ]

wok

valret

dout

OC

gnt[ ]

idle

req[ ]

OWS

ODS

Win

IFCFIFO

ICreq[ ]

idle[ ]

rok

wok[ ]

valret

din

IRS

din

wrwok

dout

rokrd

din

wrwok

dout

rokrd

Page 5: Mecanismos para o provimento de tolerância a faltas em ... · Mecanismos para o Provimento de Tolerância a faltas em Redes-em-Chip Thiago Felski Pereira 5 Introdução Como todos

Mecanismos para o Provimento de Tolerância a faltas em Redes-em-Chip Thiago Felski Pereira

5

Introdução

Como todos sistemas eletrônicos, as NoCs são suscetíveis a faltas

Uma falta na rede pode levar o sistema a falhar

NoCs tolerante a faltas evitam a propagação do erro decorrente da

falha (ex. inversão de um bit)

Para que um erro não seja propagado, ele precisa ser primeiramente

detectado

Falta Erro Falha

Ação Propagação

Page 6: Mecanismos para o provimento de tolerância a faltas em ... · Mecanismos para o Provimento de Tolerância a faltas em Redes-em-Chip Thiago Felski Pereira 5 Introdução Como todos

Mecanismos para o Provimento de Tolerância a faltas em Redes-em-Chip Thiago Felski Pereira

6

Introdução

Duração das faltas e erros

Transiente

- Ocorre uma vez e não persiste

- Crosstalk

- Partículas α (SEU)

Permanente

- Ocorre durante a fabricação ou

depois de certo tempo

- Desgaste físico

- Defeito de fabricação

- Erro de projeto

Intermitente

- Ocorre de forma repetida, mais

não contínua, no mesmo local

- Desgaste em um componente

- Flutuações de temperatura e

voltagem

Classificação das faltas quanto à duração

Page 7: Mecanismos para o provimento de tolerância a faltas em ... · Mecanismos para o Provimento de Tolerância a faltas em Redes-em-Chip Thiago Felski Pereira 5 Introdução Como todos

Mecanismos para o Provimento de Tolerância a faltas em Redes-em-Chip Thiago Felski Pereira

7

Introdução

Duração das faltas e erros

Transiente

- Ocorre uma vez e não persiste

- Crosstalk

- Partículas α (SEU)

Permanente

- Ocorre durante a fabricação ou

depois de certo tempo

- Desgaste físico

- Defeito de fabricação

- Erro de projeto

Intermitente

- Ocorre de forma repetida, mais

não contínua, no mesmo local

- Desgaste em um componente

- Flutuações de temperatura e

voltagem

Classificação das faltas quanto à duração

80% das faltas em

sistemas eletrônicos

Page 8: Mecanismos para o provimento de tolerância a faltas em ... · Mecanismos para o Provimento de Tolerância a faltas em Redes-em-Chip Thiago Felski Pereira 5 Introdução Como todos

Mecanismos para o Provimento de Tolerância a faltas em Redes-em-Chip Thiago Felski Pereira

8

Introdução

Detecção de Erros

É o aspecto mais importante de tolerância a faltas, pois um sistema não

pode tolerar um problema do qual não está ciente

A detecção de erros é feita usando-se redundância

Tipos de redundância

Tipo Ideia básica Exemplo

Espacial (física) Adição de hardware

redundante

Replicar um módulo e ter duas réplicas

para comparar seus resultados

Temporal Execução de operações

redundantes

Executar duas vezes uma operação e

comparar os resultados

Informação Adição de bits

redundantes ao dado

Adicionar bits de paridade a uma

palavra

Page 9: Mecanismos para o provimento de tolerância a faltas em ... · Mecanismos para o Provimento de Tolerância a faltas em Redes-em-Chip Thiago Felski Pereira 5 Introdução Como todos

Mecanismos para o Provimento de Tolerância a faltas em Redes-em-Chip Thiago Felski Pereira

9

Introdução

Trabalhos anteriores de TF na SoCIN

Frantz (2007)

- Proteção do roteador RaSoC (SEU e Crosstalk)

- HC-HS-TMR x CRC e TS (menor sobrecusto)

Veiga (2010)

- Proteção dos canais (Crosstalk)

- R. Informação (CRC e Paridade)

CPM

Lout

OFCFIFO

rok[ ]

wok

valret

dout

OC

gnt[ ]

idle

req[ ]

OWS

ODS

Lin

IFCFIFO

ICreq[ ]

idle[ ]

rok

wok[ ]

valret

din

IRS

din

wrwok

dout

rokrd

din

wrwok

dout

rokrd

Wout

OFCFIFO

rok[ ]

wok

valret

dout

OC

gnt[ ]

idle

req[ ]

OWS

ODS

Win

IFCFIFO

ICreq[ ]

idle[ ]

rok

wok[ ]

valret

din

IRS

din

wrwok

dout

rokrd

din

wrwok

dout

rokrd

Page 10: Mecanismos para o provimento de tolerância a faltas em ... · Mecanismos para o Provimento de Tolerância a faltas em Redes-em-Chip Thiago Felski Pereira 5 Introdução Como todos

Mecanismos para o Provimento de Tolerância a faltas em Redes-em-Chip Thiago Felski Pereira

10

Introdução

Problema de pesquisa

Prover uma solução de baixo custo que garanta confiabilidade e a

disponibilidade da rede SoCINfp mesmo na presença de faltas do tipo

SEU e crosstalk.

Redundância Espacial

- TMR

Redundância de Informação

- Cabeçalho com a informação

de roteamento (RIB) replicada

CPM

Lout

OFCFIFO

rok[ ]

wok

valret

dout

OC

gnt[ ]

idle

req[ ]

OWS

ODS

Lin

IFCFIFO

ICreq[ ]

idle[ ]

rok

wok[ ]

valret

din

IRS

din

wrwok

dout

rokrd

din

wrwok

dout

rokrd

Wout

OFCFIFO

rok[ ]

wok

valret

dout

OC

gnt[ ]

idle

req[ ]

OWS

ODS

Win

IFCFIFO

ICreq[ ]

idle[ ]

rok

wok[ ]

valret

din

IRS

din

wrwok

dout

rokrd

din

wrwok

dout

rokrd

Page 11: Mecanismos para o provimento de tolerância a faltas em ... · Mecanismos para o Provimento de Tolerância a faltas em Redes-em-Chip Thiago Felski Pereira 5 Introdução Como todos

Mecanismos para o Provimento de Tolerância a faltas em Redes-em-Chip Thiago Felski Pereira

11

Adicionando tolerância a faltas à rede SoCIN

Técnica para proteção do módulos de roteamento e arbitragem

Exemplo: Redundância espacial (TMR) no módulo de roteamento (IC)

Bloco IC

Função de

Roteamento

Registrador

Lógica de

controle

Flip-flops

Bloco IC

Função de

Roteamento

Registrador

Flip-flops

Lógica de

controle

Flip-flops

Flip-flops

Votador

Page 12: Mecanismos para o provimento de tolerância a faltas em ... · Mecanismos para o Provimento de Tolerância a faltas em Redes-em-Chip Thiago Felski Pereira 5 Introdução Como todos

Mecanismos para o Provimento de Tolerância a faltas em Redes-em-Chip Thiago Felski Pereira

12

Adicionando tolerância a faltas à rede SoCIN

Técnicas para proteção do RIB

Redundância de informação

RIB RIBRIB

Votador RIB

0

1

0

0

Carga Útil

0 1 HLP

Terminador

eo

p

bo

p

RIB.Xdest RIB.YdestRIB.Xdest RIB.YdestRIB.Xdest RIB.Ydest

Page 13: Mecanismos para o provimento de tolerância a faltas em ... · Mecanismos para o Provimento de Tolerância a faltas em Redes-em-Chip Thiago Felski Pereira 5 Introdução Como todos

Mecanismos para o Provimento de Tolerância a faltas em Redes-em-Chip Thiago Felski Pereira

13

Adicionando tolerância a faltas à rede SoCIN

Técnica para proteção do módulos de roteamento e arbitragem

Exemplo: Redundância espacial (TMR) no módulo de arbitragem (OC)

PG PPE

Bloco OC

Gerador de Prioridades

Registrador

Flip-flops

Codificador

Registrador

Flip-flops

Lógica de

controle

Controle de

Estado

Flip-flops

Lógica de

controle

Bloco OC

Gerador de Prioridades

Registrador

Flip-flops

Flip-flops

Flip-flops

Votador

Codificador

Registrador

Flip-flops

Flip-flops

Flip-flops

Votador

Lógica de

controle

Controle de Estado

Flip-flops

Flip-flops

Flip-flops

Votador

Lógica de

controle

Page 14: Mecanismos para o provimento de tolerância a faltas em ... · Mecanismos para o Provimento de Tolerância a faltas em Redes-em-Chip Thiago Felski Pereira 5 Introdução Como todos

Mecanismos para o Provimento de Tolerância a faltas em Redes-em-Chip Thiago Felski Pereira

14

Implementação e Resultados

Implementação

VHDL

Quartus

Synopsys

Configurações utilizadas no roteador ParIS

Roteamento: XY

Controle de fluxo: Baseado em Créditos

Árbitro: Round-Robin

Memorização: Buffers de profundidade 4 na entrada

Tamanho da palavra de dados: 32 bits

Tamanho do campo de roteamento (RIB): 8 bits

Portas de comunicação ativas: Todas (L, N, E, S e W)

Page 15: Mecanismos para o provimento de tolerância a faltas em ... · Mecanismos para o Provimento de Tolerância a faltas em Redes-em-Chip Thiago Felski Pereira 5 Introdução Como todos

Mecanismos para o Provimento de Tolerância a faltas em Redes-em-Chip Thiago Felski Pereira

15

Implementação e Resultados

Implementação Área

Combinacional

(µm²)

Área Não

Combinacional

(µm²)

Área de Ligações

(µm²)

Área

total

(µm²)

Sobrecusto (%)

Original 24.389,22 21.136,90 3.535,16 49.061,28

Informação 26.912,56 21.136,90 3.689,99 51.739,45 5,46%

Espacial 32.263,37 26.915,33 4.475,15 63.653,85 29,74%

Informação +

Espacial

34.900,99 26.915,33 4.645,38 66.461,70 35,47%

Custos de silício

Page 16: Mecanismos para o provimento de tolerância a faltas em ... · Mecanismos para o Provimento de Tolerância a faltas em Redes-em-Chip Thiago Felski Pereira 5 Introdução Como todos

Mecanismos para o Provimento de Tolerância a faltas em Redes-em-Chip Thiago Felski Pereira

16

Implementação e Resultados

Potência

Implementação Potência Total (µW) Sobrecusto %

Original 2134,70

Informação 2204,80 3,28%

Espacial 2224,30 4,20%

Espacial +

Informação

2272,50 6,46%

Page 17: Mecanismos para o provimento de tolerância a faltas em ... · Mecanismos para o Provimento de Tolerância a faltas em Redes-em-Chip Thiago Felski Pereira 5 Introdução Como todos

Mecanismos para o Provimento de Tolerância a faltas em Redes-em-Chip Thiago Felski Pereira

17

Conclusões

Custo de redundância de informação muito inferior ao de redundância

espacial: 5,46%

Custo combinado

Área: 35,47%

Potência: 6,46%

Trabalhos futuros

Combinar as técnicas deste trabalho com as de Veiga (2010) para

proteger também os dados através de (paridade/CRC)

SystemC para simulação e avaliar a taxa de cobertura da das técnicas

Page 18: Mecanismos para o provimento de tolerância a faltas em ... · Mecanismos para o Provimento de Tolerância a faltas em Redes-em-Chip Thiago Felski Pereira 5 Introdução Como todos

Itajaí, Santa Catarina, Brasil

Mecanismos para o provimento de tolerância a faltas em Redes-em-Chip

Thiago Felski Pereira

[email protected]

Cesar Albenes Zeferino

[email protected]

Universidade do Vale do Itajaí – UNIVALI Laboratório de Sistemas Embarcados e Distribuídos - LEDS