iramuteq: um software para análises estatísticas

41
Igor Tavares Iramuteq: Um software para análises estatísticas qualitativas em corpus textuais Natal - RN 04 de dezembro de 2019

Upload: others

Post on 30-Jul-2022

3 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Iramuteq: Um software para análises estatísticas

Igor Tavares

Iramuteq: Um software para análisesestatísticas qualitativas em corpus textuais

Natal - RN

04 de dezembro de 2019

Page 2: Iramuteq: Um software para análises estatísticas

Igor Tavares

Iramuteq: Um software para análises estatísticasqualitativas em corpus textuais

Monografia de Graduação apresentada ao De-partamento de Estatística do Centro de Ci-ências Exatas e da Terra da UniversidadeFederal do Rio Grande do Norte como re-quisito parcial para a obtenção do grau deBacharel em Estatística.

Universidade Federal do Rio Grande do Norte

Centro de Ciências Exatas e da Terra

Departamento de Estatística

Orientador: Prof. Dr. André Luís Santos de Pinho

Natal - RN04 de dezembro de 2019

Page 3: Iramuteq: Um software para análises estatísticas

Fernandes, Igor Antônio Tavares. Iramuteq: um software para análises estatísticas qualitativasem corpus textuais / Igor Antônio Tavares Fernandes. - 2019. 40f.: il.

Monografia (Bacharelado) - Universidade Federal do Rio Grandedo Norte, Centro de Ciências Exatas e da Terra, Departamento deEstatística. Natal, 2019. Orientador: André Luís Santos de Pinho.

1. Estatística - Monografia. 2. Discurso - Monografia. 3.Banco de dados - Monografia. 4. Métodos analíticos - Monografia.I. Pinho, André Luís Santos de. II. Título.

RN/UF/CCET CDU 519.2

Universidade Federal do Rio Grande do Norte - UFRNSistema de Bibliotecas - SISBI

Catalogação de Publicação na Fonte. UFRN - Biblioteca Setorial Prof. Ronaldo Xavier de Arruda - CCET

Elaborado por Joseneide Ferreira Dantas - CRB-15/324

Page 4: Iramuteq: Um software para análises estatísticas

Igor Tavares

Iramuteq: Um software para análises estatísticasqualitativas em corpus textuais

Monografia de Graduação apresentada ao De-partamento de Estatística do Centro de Ci-ências Exatas e da Terra da UniversidadeFederal do Rio Grande do Norte como re-quisito parcial para a obtenção do grau deBacharel em Estatística.

Aprovado em de de .

Prof. Dr. André Luís Santos de PinhoOrientador

Profa. Dra. Carla Almeida VivacquaExaminadora

Profa. Dr.a Julia Victoria ToledoBenavidesExaminador

Natal - RN04 de dezembro de 2019

Page 5: Iramuteq: Um software para análises estatísticas

A minha mãe

Page 6: Iramuteq: Um software para análises estatísticas

Agradecimentos

Agradeço à minha mãe e principal apoiadora, Francileide Tavares, por sempre estarao meu lado e me incentivar em todas as escolhas que fiz, aos meus amigos que souberamentender que não pude estar com eles mesmo em momentos especiais, e ao meu orientador,o professor André Pinho, sempre paciente e atencioso comigo.

Page 7: Iramuteq: Um software para análises estatísticas

“Pobre Lear, que ficou velho antes de ficar sábio.”Willian Shakespeare

Page 8: Iramuteq: Um software para análises estatísticas

ResumoEste trabalho apresentará um tutorial sobre o software Iramuteq, partindo da sua instalaçãoem que se faz necessário seguir etapas específicas e cumprir requisitos operacionais paraque ocorra a ótima utilização do Software, passando por uma explanação da sua interface,montagem do banco de dados ideal para análises do discurso em textos transcritos, eadequação do banco de dados de caráter matricial. Prosseguindo com a explicação sobre aforma como o software trabalha, descrevendo o que é a lematização bem como a importânciada correta montagem de variáveis e consequente divisão textual dentro do banco de dados,discorrendo sobre a segmentação textual e descrevendo os métodos analíticos presentes nosoftware e como interpretar os resultados obtidos em cada análise.

Palavras-chave: Discurso. Banco de Dados. Métodos Analíticos.

Page 9: Iramuteq: Um software para análises estatísticas

AbstractThis paper presents a tutorial on the Iramuteq software, starting from its installation whereit is necessary to follow the specific steps and usage requirements to make optimal use ofthe Software, going through an explanation of its interface, ideal database assembly fordiscourse analysis in transcribed texts and adequacy of matrix database. Continuing withan explanation of how the software works, describing what a lemmatization is as well asthe importance of the correct assembly of variables and consequent textual division withinthe database, discussing a textual segmentation and describing the analytical methodspresent in the software and how to interpret the results obtained in each analysis.

Keywords: Speech. Database. Analytical Methods.

Page 10: Iramuteq: Um software para análises estatísticas

Glossário

Igor Antônio Tavares Fernandes

04 de dezembro de 2019

• Ancoragem : Terceirizar a execução dos comandos para uma ferramenta de suporte;

• Corpus textual : Banco de dados construído através de um editor de texto, por umagrupamento de material verbal transcrito organizado sobre formatação pré-definida;

• Curva de aprendizado : Relação de tempo e dificuldade até o domínio de determinadacaracterística;

• Deflexionar : Provocar mudança(s) ou alteração no posicionamento normal de (algoou de uma pessoa) para, geralmente, uma de suas partes laterais; desviar ou defletir;

• Lei-hipergeométrica : Distribuição utilizada para calcular a significância estatísticade obtenção de um número específico de sucessos a partir de determinado conjunto;

• Lematização:A lematização é o processo, efetivamente, de deflexionar uma palavrapara determinar o seu lema;

• Qui-quadrado : Distribuição utilizada para avaliar quantitativamente a relação entreos resultados e a distribuição esperada para o fenômeno;

• Rangs : Ordem em que as palavras aparecem em cada unidade textual;

• Utf - 8 : é um tipo de codificação binária de comprimento variável criado por KenThompson e Rob Pike. Pode representar qualquer caracter universal padrão doUnicode.

9

Page 11: Iramuteq: Um software para análises estatísticas

Lista de ilustrações

Figura 1.1 – Sítio de Download . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13Figura 1.2 – Janela de Preferências . . . . . . . . . . . . . . . . . . . . . . . . . . . 13Figura 2.1 – Formatação adequada do corpus textual . . . . . . . . . . . . . . . . . 15Figura 2.2 – Botão de indexação para corpus . . . . . . . . . . . . . . . . . . . . . . 15Figura 2.3 – indexação do corpus através do menu . . . . . . . . . . . . . . . . . . . 15Figura 2.4 – Definições do Corpus - Aba geral . . . . . . . . . . . . . . . . . . . . . 16Figura 2.5 – Definições do Corpus - Aba limpando . . . . . . . . . . . . . . . . . . . 17Figura 2.6 – Janela de descrição do Corpus indexado . . . . . . . . . . . . . . . . . 17Figura 2.7 – Atalhos dos métodos na interface do Iramuteq . . . . . . . . . . . . . . 18Figura 2.8 – Definições de padronização da leitura . . . . . . . . . . . . . . . . . . . 19Figura 2.9 – Propriedades chave - Aba para edição gramatical . . . . . . . . . . . . 19Figura 2.10–Abas da análise clássica . . . . . . . . . . . . . . . . . . . . . . . . . . 20Figura 2.11–Resultados da aba Resumo . . . . . . . . . . . . . . . . . . . . . . . . . 20Figura 2.12–Tabela de frequência padrão . . . . . . . . . . . . . . . . . . . . . . . . 21Figura 2.13–Tabela de codificação das classes gramaticais . . . . . . . . . . . . . . . 22Figura 2.14–Escolha das variáveis caracterizadoras . . . . . . . . . . . . . . . . . . 23Figura 2.15–Tabelas de correlação e frequências . . . . . . . . . . . . . . . . . . . . 23Figura 2.16–Gráfico das estatísticas de especificidades em relação a forma ser . . . 24Figura 2.17–Representação gráfica da AFC . . . . . . . . . . . . . . . . . . . . . . . 25Figura 2.18–Menu de edição do gráfico da AFC . . . . . . . . . . . . . . . . . . . . 26Figura 2.19–Janela de Definições do método de Reinert . . . . . . . . . . . . . . . . 27Figura 2.20–Janela de Erro não identificado . . . . . . . . . . . . . . . . . . . . . . 27Figura 2.21–Classificação em CHD pelo método de Reinert . . . . . . . . . . . . . . 28Figura 2.22–Janela de Definições da Análise de Similitude . . . . . . . . . . . . . . 29Figura 2.23–Janela de ajustes da Análise de Similitude . . . . . . . . . . . . . . . . 30Figura 2.24–Grafo simples de análise de similitude . . . . . . . . . . . . . . . . . . . 31Figura 2.25–Janela de configurações da nuvem de palavras . . . . . . . . . . . . . . 32Figura 2.26–Nuvem de palavras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32Figura 3.1 – Legenda do Corpus Textual . . . . . . . . . . . . . . . . . . . . . . . . 33Figura 3.2 – Tabela de frequências simples das formas ativas . . . . . . . . . . . . . 34Figura 3.3 – Gráfico AFC utilizando escore Qui-quadrado por Sexo e Escolaridade

considerando Formas ativas . . . . . . . . . . . . . . . . . . . . . . . . 35Figura 3.4 – Árvore de Similitude padrão delimitada por comunidades e Halo . . . . 37Figura 3.5 – Nuvem de Palavras para formas ativas . . . . . . . . . . . . . . . . . . 38

Page 12: Iramuteq: Um software para análises estatísticas

Sumário

1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121.1 Requisitos e Operacionalidade . . . . . . . . . . . . . . . . . . . . . . 121.1.1 Suporte e Instalação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2 DESENVOLVIMENTO . . . . . . . . . . . . . . . . . . . . . . . . . 142.1 Princípios da Ferramenta . . . . . . . . . . . . . . . . . . . . . . . . . 142.1.1 Corpus Textual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142.1.1.1 Indexação do corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152.1.2 Lematização . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182.2 Métodos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182.2.1 Análises lexicográficas clássicas . . . . . . . . . . . . . . . . . . . . . . . . 192.2.1.1 Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202.2.2 Especificidades e AFC . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222.2.3 Método de Reinert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262.2.4 Análise de Similitude . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 282.2.5 Nuvem de Palavras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

3 APLICAÇÕES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333.1 Avaliando o discurso . . . . . . . . . . . . . . . . . . . . . . . . . . . . 343.1.1 Aplicando análises lexográficas clássicas . . . . . . . . . . . . . . . . . . . 343.1.2 Aplicando Especificidades e AFC . . . . . . . . . . . . . . . . . . . . . . . 353.1.3 Aplicando Análise de Similitude . . . . . . . . . . . . . . . . . . . . . . . 363.1.4 Aplicando Nuvem de Palavras . . . . . . . . . . . . . . . . . . . . . . . . 37

4 CONSIDERAÇÕES FINAIS . . . . . . . . . . . . . . . . . . . . . . . 39

REFERÊNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

Page 13: Iramuteq: Um software para análises estatísticas

12

1 Introdução

O software Iramuteq, sigla que significa, Interface de R pour les Analyses Multidi-mensionnelles de Textes et de Questionnaires. Foi criado em 2009 por Pierre Ratinaud,tendo como objetivo ser a alternativa gratuita do software Alceste, bem como, para agregarum novo leque de técnicas em análises textuais que este não continha. Vem sendo licenciadoe desenvolvido pelo Laboratoire d’Études et de Recherches Appliquées en Sciences Sociales(LERASS) da Universidade de Toulouse na França, porém sua última versão disponível a0.7 alpha 2 foi atualizada pela última vez em 2014.

A análise textual é um tipo específico de análise de dados, que trata especificamenteda análise de material verbal transcrito, ou seja, de textos produzidos em diferentes contex-tos (SALVIATI. MARIA ELISABETH, 2017). Ela é aplicada nos estudos de pensamentos,crenças e opiniões produzidas em relação a determinado fenômeno, tema de investigação,permitindo a quantificação de variáveis essencialmente qualitativas originadas de textos, afim de descrever o material produzido por determinado sujeito ou sujeitos (CAMARGO &JUSTO, 2013).

Com o advento da internet junto a globalização, a produção textual expande seuterritório de conhecimento e influencia outros autores, que por si produzem novos textoscom variadas interpretações. Desta forma, o objetivo deste trabalho é proporcionar umavisão inicial que ofereça uma menor margem de incerteza em relação às diferentes produçõestextuais disponíveis na língua portuguesa por meio da utilização do Iramuteq.

1.1 Requisitos e Operacionalidade

1.1.1 Suporte e Instalação

O software Iramuteq é dependente de outros softwares para realizar suas análises,ele necessita de um editor de texto padrão que consiga trabalhar com a extensão utf-8, poisdevido à sua extensão variável ela pode representar todos os caracteres do padrão unicode,além de ser compatível com outros padrões, bem como oferecer cobertura para todos os dici-onários disponíveis no Iramuteq. O Iramuteq também necessita de um software compatívelcom a linguagem Python que possa dar suporte para leitura e carregamento de seus algorit-mos, sendo assim o programa testado e utilizado para a ancoragem do Iramuteq é o R, dispo-nível em (https://cran.r-project.org/bin/windows/base/R-3.5.1-win.exe). Para correta uti-lização do software Iramuteq, disponível em (https://sourceforge.net/projects/iramuteq/),primeiramente deve-se instalar o R, para que durante a instalação haja a ancoragem dospacotes do R no Iramuteq, porém não se faz necessário abrir o programa R ou utilizá-lo

Page 14: Iramuteq: Um software para análises estatísticas

Capítulo 1. Introdução 13

previamente.

Figura 1.1 – Sítio de Download

Ao executar o Iramuteq na primeira vez, ele pode estar em francês e deve iniciarautomaticamente a checagem de pacotes e compatibilidade abrindo uma tela de comando,caso não ocorra, o usuário deve forçar essa tarefa manualmente acessando o menu edição(edition) e clicando em preferências (préférences), em seguida acionando o botão verificar(verifiér) como indicado na Figura 1.2. Logo acima deste o usuário encontrará a opção detrocar o idioma para o português, feito isso ele ainda precisará reiniciar o programa paraque a linguagem seja alterada, porém algumas abas e ferramentas ainda não contam coma devida tradução, o que não interferiu neste trabalho.

Figura 1.2 – Janela de Preferências

Page 15: Iramuteq: Um software para análises estatísticas

14

2 Desenvolvimento

2.1 Princípios da FerramentaA análise de textos no software Iramuteq acontece apartir de uma sequência lógica

de etapas, sendo elas, a construção do corpus textual, seguido da revisão deste corpus deacordo com os requisitos do software, sua gravação e posterior escolha do método que seencaixe na necessidade do usuário. Os exemplos utilizados para ilustrar as explicaçõesestaram com as definições padronizadas pelo Software, salvo quando informado o contrário.

2.1.1 Corpus Textual

Corpus textual é um conjunto de textos adotados pelo usuário para construir obanco de dados utilizado pela maioria dos métodos disponíveis no Iramuteq. O corpus seassemelha a uma amostra, porém na sua construção o pesquisador interfere nos textospara que sua estrutura possa ser entendida corretamente pelo software e o resultado estejaem conformidade com as questões para o qual o banco foi criado.

Para o Iramuteq, texto é um conjunto de palavras que caracterizam uma unidadeinformativa, ou seja, podemos entender que o corpus tem n unidades textuais, essas devemser pré-estabelecidas pelo usuário durante a separação dos textos na montagem do corpus,por exemplo, se o corpus fosse um conjunto de livros sobre determinado tema, cada textopoderia ser um destes livros, ou também poderia ser um capítulo, ou ainda uma página,essa escolha será influenciada pela pretensão do autor da análise.

A construção do corpus deve ser realizada separando o banco em textos(unidadesdo corpus textual), como descrito anteriormente. Para indicar a presença de um texto,inicia-se a linha do arquivo com 4 asteriscos (****) seguidos pelos nomes atribuídos asvariáveis propostas pela análise, e logo abaixo o primeiro texto, por conseguinte repete-seo processo de inserção dos textos até a completude do corpus.

Ex:∗ ∗ ∗∗ ∗ato_01 ∗fala_01 ∗per_01

Enquanto isso, mostrar pretendo nossos desígnios mais recônditos. Um mapa!

Ficai sabendo, assim, que dividimos nosso reino em três partes, sendo nossa

firme intenção livrar-nos, na velhice, dos cuidados, bem como dos negócios,

para confiá-los a mais jovens forças, e, assim, nos arrastarmos para a morte,

de qualquer fardo isento. Nosso filho de Cornualha, assim como vós, Albânia,

filho também não menos caro, temos o propósito certo, neste instante, de de-

Page 16: Iramuteq: Um software para análises estatísticas

Capítulo 2. Desenvolvimento 15

clarar publicamente o dote de nossas filhas, para que a discórdia futura fique

obviada desde agora. Os príncipes da França e da Burgúndia, grandes rivais

no amor de nossa filha mais nova, em nossa corte já fizeram sua parada longa

e apaixonada. Ora aguardam resposta. Minhas filhas já que neste momento

nos despimos do governo, não só, dos territórios e cuidados do Estado ora

dizei-me qual de vós mais amor nos tem deveras, porque alargar possamos

nossa dádiva onde contende a natureza e o mérito. Fale primeiro Goneril, a

nossa filha mais velha.

(Shakeaspeare. Willian, Rei Lear, ato 1.)

2.1.1.1 Indexação do corpus

Após o preparo adequado do banco de dados é importante que este seja salvo naextensão .txt e codificação unicode .utf-8 como exemplifica a Figura 2.1 , a partir destepasso pode-se iniciar o programa em que há duas formas para indexação do corpus textual,pelo botão da interface ou na opção “arquivo” do menu, como demonstrado nas Figuras2.2 e 2.3, respectivamente.

Figura 2.1 – Formatação adequada do corpus textual

Figura 2.2 – Botão de indexação para corpus

Figura 2.3 – indexação do corpus através do menu

Page 17: Iramuteq: Um software para análises estatísticas

Capítulo 2. Desenvolvimento 16

Ao escolher o arquivo do banco de dados, o Iramuteq abrirá uma janela de definiçõesna qual se parametriza a importação do corpus para o software, nela consta duas abas,geral e limpando. A aba geral dará as diretrizes para leitura do texto codificado poder sercorretamente identificado durante a aplicação dos métodos, onde o item definir caracteresindica a codificação, o item idioma permite selecionar a língua na qual foram escritos ostextos presentes no corpus. Deve-se seguir a formatação indicada na Figura 2.4, para queseja aplicado o dicionário na língua portuguesa, (caso queira, o usuário pode carregar umarquivo com seu próprio dicionário) e o procedimento utilizado seja compatível com aforma que o arquivo foi salvo, enquanto a aba limpando fará correções no banco de acordocom padrões pré estabelecidos, como mostra a Figura 2.5.

Figura 2.4 – Definições do Corpus - Aba geral

Page 18: Iramuteq: Um software para análises estatísticas

Capítulo 2. Desenvolvimento 17

Figura 2.5 – Definições do Corpus - Aba limpando

Após a indexação do texto o Iramuteq criará uma janela de descrição do corpustextual como ilustra a Figura 2.6. Nesta janela o usuário poderá checar as informações docorpus assim como terá acesso a um resumo da partição do corpus em números, pois todoo arquivo quando dividido para leitura pelo software é quantificado em número de textos,segmentos destes textos (que indicam a sua porcentagem de aproveitamento), número depalavras (ocorrências), número de formas (tipo gramatical das palavras) e hapax (palavrasque só ocorrem uma única vez) em todo o corpus.

Figura 2.6 – Janela de descrição do Corpus indexado

Page 19: Iramuteq: Um software para análises estatísticas

Capítulo 2. Desenvolvimento 18

2.1.2 Lematização

Lematização no Iramuteq, é o ato de deflexionar as palavras de mesma origeme sentido para determinar seu lema e poder trabalhar melhor o foco do discurso, porexemplo, as palavras tivera, tens, tido, tive, teria pertencem ao mesmo lema que é apalavra ter, sendo esta a utilizada nas considerações dos métodos.

2.2 MétodosEste capítulo tem como objetivo descrever analíticamente os métodos utilizados

pelo Iramuteq para análise de discursos através de um Corpus textual, assim como ilustraros resultados gráficos exibidos pelo software, mas não fará comentários aprofundados,os reservando para a sessão de aplicação. O Iramuteq contém cinco itens que englobamseus métodos analíticos como destacado na Figura 2.7 Para uma boa explicação de cadamétodo, será demonstrado em cada item de mesmo nome, o passo a passo juntamentecom o caminho percorrido pelos menus e seus botões em particular, tendo como intuito autilização e consulta em separado do método escolhido pelo usuário.

Figura 2.7 – Atalhos dos métodos na interface do Iramuteq

Antes de aplicar cada método, o Iramuteq abrirá uma nova janela de definiçõescomo mostra a Figura 2.8 que tem como objetivo padronizar a leitura do Corpus textualde acordo com a língua em que ele foi escrito. Nesta janela o usuário pode optar porrealizar ou não a lematização nos textos indexados, utilizar o dicionário indexado ou outro,que deve ser previamente carregado durante a indexação do Corpus, como citado na sessão2.1.1.1, e também definir quais classes gramaticais deseja priorizar bem como removerdas análises, como ilustra a Figura 2.9, a interface desta aba ainda não foi traduzida dofrancês para outras línguas além do inglês, isto posto, o usuário deverá buscar o significadode cada categoria na sua língua caso deseje refinar suas análises de acordo com critériosgramaticais ou com o objetivo de remover classes que possam ser desinteressantes parasua pesquisa.

Page 20: Iramuteq: Um software para análises estatísticas

Capítulo 2. Desenvolvimento 19

Figura 2.8 – Definições de padronização da leitura

Figura 2.9 – Propriedades chave - Aba para edição gramatical

2.2.1 Análises lexicográficas clássicas

Neste item o usuário encontrará uma análise quantitativa baseada em descrições defrequência e listas informativas sobre a modelagem do Corpus, que engloba a quantificaçãoem unidades textuais e reformatação do banco de dados nos padrões do software, reduzindoe flexionando as palavras e formas através da lematização para criar o que se denomina dedicionário de formas reduzidas, e identificação das formas destas unidades textuais atravésdo vocabulário utilizado.

Page 21: Iramuteq: Um software para análises estatísticas

Capítulo 2. Desenvolvimento 20

2.2.1.1 Resultados

A apresentação do resultado se divide em cinco abas, sendo elas nomeadas: Resumo,actives forms, supplementary forms, total e hapax, como mostra a Figura 2.10 .

Figura 2.10 – Abas da análise clássica

A aba resumo apresenta, como ilustra a Figura 2.11, os números mencionados naseção anterior (número de textos, número de ocorrências, número de formas, número dehapax e sua porcentagem em relação ao número de ocorrências e ao número de formas, e amédia de ocorrências por texto), bem como traz um gráfico denominado diagrama de Zipfque apresenta a relação da frequência com a ordem de evocação (rangs) das palavras doCorpus.

Figura 2.11 – Resultados da aba Resumo

As demais abas da seção de Análises lexográficas clássicas apresentam, comoilustrado na Figura 2.12, uma semelhante tabela de frequências com três colunas, notepor exemplo, que a palavra de tem Freq 101, indicando que ela está presente cento e umavezes no corpus. A coluna Forma indica qual a palavra foi adotada como Lema e seráconsiderada para a exibição dos resultados nas análises gráficas, a seguir, a coluna Freq.exibe a frequência das palavras presentes na coluna anterior, já a coluna Tipos apresentaatravés da codificação de leitura do software a classe gramatical da Forma a qual se refere,

Page 22: Iramuteq: Um software para análises estatísticas

Capítulo 2. Desenvolvimento 21

vemos na Figura 2.13 a relação entre a codificação e a classe escrita por extenso em ordemalfabética.

Figura 2.12 – Tabela de frequência padrão

Page 23: Iramuteq: Um software para análises estatísticas

Capítulo 2. Desenvolvimento 22

Figura 2.13 – Tabela de codificação das classes gramaticais

As abas Actives forms e Supplementary forms, tem como objetivo indicar que háuma separação na importância das palavras entre formas ativas e formas complementares,agrupando as palavras através dos seus Tipos(Classes gramaticais), que podem ser vistasem conjunto na aba Total. Já na aba Hapax são apresentadas as Formas que aparecemapenas uma vez no corpus textual, independente da classe gramatical a qual elas pertençam.

2.2.2 Especificidades e AFC

A análise por especificidades é o segundo item encontrado no menu de atalhos,ela trabalha relacionando as variáveis caracterizadoras do estudo com a produção textualutilizada para montar o Corpus, seccionando-o através das variáveis selecionadas.

Após a escolha do item e a janela de definições, surge uma nova janela nomeadavariáveis escolhidas, ilustrada na Figura 2.14, onde o usuário informa a classe de formasentre ativas, complementares ou ambas; a seleção de variáveis caracterizadoras que podeser uma ou um grupo de variáveis criadas para dividir o banco, como mostra a Figura2.14 ou modalidades, que seriam, uma parte de uma dessas variáveis, por exemplo umadeterminada fala ou um personagem, logo no caso de mais de uma modalidade, elas devempertencer à mesma variável, essa escolha tem como critério o que deve ser investigadoe destacado; O escore a ser trabalhado no cálculo de correlação que pode ser pela leihipergeométrica ou qui-quadrado, e a frequência mínima para que a forma seja considerada.

Page 24: Iramuteq: Um software para análises estatísticas

Capítulo 2. Desenvolvimento 23

Figura 2.14 – Escolha das variáveis caracterizadoras

No Iramuteq esta análise é realizada executando o cálculo de frequências e obtendo,a partir destas freqûencias, os valores do escore baseados na correlação entre cada palavrada base de dados, como ilustra a Figura 2.15, onde foi selecionada a variável fala. Asabas de Formas a Tipos de frequências relativas exibem as correlações padronizadas e afrequência (normal e relativa das formas consideradas, bem como seus tipos.

Figura 2.15 – Tabelas de correlação e frequências

O usuário também pode interagir com mais detalhes da análise clicando com obotão direito do mouse, desta forma, ele terá acesso a lista de formas associadas à palavraselecionada, e à concordância onde está empregada dentro do banco de dados e um gráficodela relacionada às abas descritas no parágrafo anterior como exemplifica a Figura 2.16.Há mais dois itens que podem ser acessados desta forma, porém eles englobam todas

Page 25: Iramuteq: Um software para análises estatísticas

Capítulo 2. Desenvolvimento 24

as palavras da tabela, são eles, a relação de textos típicos de acordo com a variável pré-selecionada na análise e um editor da análise, no qual o usuário pode remover determinadapalavra e refazer a análise.

Figura 2.16 – Gráfico das estatísticas de especificidades em relação a forma ser

Na aba AFC encontram-se os gráficos da Análise Fatorial de Correspondência.Cruzamento entre o vocabulário (considerando a frequência de incidência de palavras) eas classes, gerando uma representação gráfica em plano cartesiano, na qual são vistas asoposições entre classes ou formas (NASCIMENTO MENANDRO, 2006). Como exemplificaa Figura 2.17.

Page 26: Iramuteq: Um software para análises estatísticas

Capítulo 2. Desenvolvimento 25

Figura 2.17 – Representação gráfica da AFC

São plotados quatro gráficos divididos em dois grupos (formas e tipos) para repre-sentar o distanciamento entre as observações. O primeiro traz a característica do grupo, eo segundo a divisão da variável representada. Para edição destes gráficos existe um botãona parte superior esquerda da área de plotagem. Através dele o usuário tem acesso à umaaba na qual ele poderá alterar definições como tipo de gráfico, formato do arquivo daimagem e dimensões, como pode ser visto na Figura 2.18 .

Page 27: Iramuteq: Um software para análises estatísticas

Capítulo 2. Desenvolvimento 26

Figura 2.18 – Menu de edição do gráfico da AFC

2.2.3 Método de Reinert

O método de Reinert tem como objetivo identificar as ideias contidas no textoagrupando vocabulários através da proximidade léxica das palavras, separando as ideiasem espécies de mundos mentais ou sistemas de representação do discurso. Está análiseapresenta uma classificação hierárquica descendente (CHD) utilizando os segmentos detextos para identificar os diferentes vocabulários padronizados pelo dicionário padrão dalíngua e a lista de formas reduzidas geradas na indexação do Corpus, buscando através dalógica de correlação entre as raízes das formas a distinção entre as classes. O Iramuteqorganiza as palavras em um dendograma, que representa a quantidade e composição léxicade classes a partir de um agrupamento de termos, do qual se obtém a frequência absolutade cada um deles e o valor de qui-quadrado agregado (ALMICO & FARO, 2014). A janelade definições do método está ilustrada na Figura 2.19.

Page 28: Iramuteq: Um software para análises estatísticas

Capítulo 2. Desenvolvimento 27

Figura 2.19 – Janela de Definições do método de Reinert

É importante salientar que as análises do tipo CHD, para serem úteis à classificaçãode qualquer material textual, requerem uma retenção mínima de 75 % dos segmentos detexto (alguns autores, falam da possibilidade de se considerar o aproveitamento de 70%dos segmentos de textos)(CAMARGO & JUSTO, 2016). Portanto, ela não se encaixaráem todo tipo de material transcrito. Não foi obtido sucesso ao tentar replicar o métododescrito utilizando os conjuntos de dados apresentados neste documento, as tentativasforam realizadas em duas versões do R, sendo uma delas a utilizada para os testes deaprimoramento do Iramuteq, bem como com diferentes padrões de definições, apresentandosempre o erro visto na Figura 2.20. A literatura não indica o aparecimento desta mensagemde erro, que provavelmente só ocorre na versão mais atualizada do Iramuteq.

Figura 2.20 – Janela de Erro não identificado

Um possível resultado conseguido por (SALVIATI. MARIA ELISABETH, 2017)da análise aplicada, seria o dendograma ilustrado na Figura 2.21.

Page 29: Iramuteq: Um software para análises estatísticas

Capítulo 2. Desenvolvimento 28

Figura 2.21 – Classificação em CHD pelo método de Reinert

2.2.4 Análise de Similitude

A análise de similitude é baseada na teoria dos grafos cujos resultados auxiliam noestudo das relações entre objetos. (SALVIATI. MARIA ELISABETH, 2017). A teoria dosgrafos é um ramo da matemática que estuda as relações entre os objetos de um determinadoconjunto. Para tal, são empregadas estruturas chamadas de grafos, G(V,E), em que V é umconjunto não vazio de objetos denominados vértices (ou nós) e E (do inglês Edges - arestas)é um subconjunto de pares não ordenados de V. Teoria dos Grafos. In: Wikipédia: a enci-clopédia livre. Disponível em: < https : //pt.wikipedia.org/wiki/Teoria_do_grafos >

Acesso em: 04 nov 2019.

No software Iramuteq a análise de similitude é realizada através de um escore àescolha do usuário, que em sua maioria se encontra disponibilizado através da bibliotecaproxy do software R, possibilitando a montagem da matriz de similitude. O Iramuteq nãodisponibiliza a matriz, porém cada indice é uma informação de distância que indicará aposição dos vértices e por conseguinte o desenho das arestas que os conectam.

O objetivo desta análise é identificar como foi realizada a contrução do discurso quecompõe o corpus textual, identificando a estrutura base que relaciona as formas assim como,os temas por grau de relevância que conectam as partes importantes que caracterizamos textos contidos na base de dados. Para executar o método, o usuário encontrará umajanela de definições com uma lista de formas por frequência, no qual ele poderá limitaras formas que entrarão na sua análise segurando a tecla Ctrl e clicando sobre elas com obotão esquerdo do mouse, e duas abas para configurações e ajustes, como pode ser vistona Figura 2.22.

Page 30: Iramuteq: Um software para análises estatísticas

Capítulo 2. Desenvolvimento 29

Figura 2.22 – Janela de Definições da Análise de Similitude

Na aba Configurações gráficas, que está exibida na Figura 2.22, o usuário poderáescolher o escore utilizado para o cálculo da matriz de similitude; selecionar o critério deapresentação do grafo; o formato e o tipo de gráfico, entre estático, que é uma imagem fixaplotada, dinâmico, que produz uma janela em que se encontra imagem semelhante a doestático porém sendo possível a movimentação dos vértices pela área plotada, movimentandocom eles suas arestas, e uma imagem 3d (a tentativa de execução destá imagem apresentouo mesmo erro descrito no capítulo anterior e exibido pela Figura 2.20). Além destas opçõeso usuário pode definir características delimitadoras e informativas para o grafo, comolimitar a árvore máxima exibida, exibir os escores calculados nas bordas, exibir a árvoreem comunidades que podem ser marcadas por um Halo, bem como selecionar uma variávelcomo critério para o cálculo e montagem do grafo.

Já na aba Ajustes Gráficos, exibida na figura Figura 2.23, o usuário conseguirádefinir as características de visualização da imagem de acordo com os elementos do grafo,sendo possível mudar as dimensões da imagem gerada, alterar o tamanho do vértice, e dotexto nele contido, proporcionalmente a frequência total ou pelo qui-quadrado, bem comomudar cores. As duas últimas opções (“transparência das esferas” e “faça um filme”) sãohabilitadas apenas quando for selecionado na aba Configurações gráficas a opção de tipode imagem em 3d.

Page 31: Iramuteq: Um software para análises estatísticas

Capítulo 2. Desenvolvimento 30

Figura 2.23 – Janela de ajustes da Análise de Similitude

Após confirmar as configurações o método será aplicado no software gerando umgrafo como ilustrado na Figura 2.24. O grafo plotado com as configurações indicadas peloIramuteq tem o intuito de ser simples e claro, destacando através do tamanho e intensidadeda fonte as formas mais relevantes, e determinando as estruturas através das ramificaçõesassociadas à cada palavra-chave. Entretanto, após a plotagem da imagem, o softwaredisponibiliza no canto superior esquerdo, dois botões, que permitem realizar novamenteo procedimento alterando as definições através da janela previamente apresentada nasFiguras 2.22 e 2.23, e exportar o gráfico para a pasta na qual se encontra o corpus textualque está sendo estudado, respectivamente.

Page 32: Iramuteq: Um software para análises estatísticas

Capítulo 2. Desenvolvimento 31

Figura 2.24 – Grafo simples de análise de similitude

2.2.5 Nuvem de Palavras

Este método propõe um agrupamento baseado em frequência para rápida e simplesdeterminação das formas chave que são mais relevantes para o discurso presente no Corpustextual, que deve ser definido na janela de configurações da nuvem, na qual o usuáriopoderá ajustar as dimensões da imagem e do texto, formato do arquivo, número máximode formas a considerar, o tipo de formas utilizadas na criação da nuvem (ativas e/oucomplementares), bem como alterar a cor da fonte e do fundo, assim como ilustra a Figura2.25.

Page 33: Iramuteq: Um software para análises estatísticas

Capítulo 2. Desenvolvimento 32

Figura 2.25 – Janela de configurações da nuvem de palavras

Após a confirmação das configurações aparecerá a lista de formas e frequênciasque será utilizada na criação da imagem. A formatação da nuvem relaciona diretamente otamanho das palavras exibidas com a importância delas, também centralizando as maisrelevantes como ilustra a Figura 2.26. A organização desse agrupamento pode mudar casoo usuário refaça a nuvem para o mesmo conjunto, entretanto, as palavras continuarão ater a mesma magnitude.

Figura 2.26 – Nuvem de palavras

Page 34: Iramuteq: Um software para análises estatísticas

33

3 Aplicações

Esta seção será destinada a aplicar os principais métodos para análise de corpustextual que foram apresentados anteriormente, se propondo a extrair resultados concretosem dados reais coletados por uma pesquisa de mercado estrategicamente formulada, demaneira que estes dados possam oferecer informações relevantes dentro da área de interesseabordada pela pesquisa.

Os dados utilizados nessa sessão foram extraídos de uma pesquisa elaborada peloSEBRAE-RN com o objetivo de avaliar a experiência do indivíduo que frequentou oespaço Sebrae Terroir durante o período da Festa do Boi que ocorreu no ano de 2018 noparque Aristófanes Fernandes, as abordagens eram feitas ao acaso, e os questionários eramaplicados aos transeuntes do espaço.

As análises realizadas neste capítulo utilizaram as respostas a última questãocontida no documento que correspondia à pergunta: “Quais seus comentários e sugestõessobre o espaço Sebrae Terroir”. Esse item teve 82 (oitenta e duas) respostas que formaramas sentenças consideradas como textos para a montagem do corpus textual a ser exploradonesta seção. A montagem e indexação do Corpus no software seguiu o padrão indicadonos capítulos anteriores, e sua forma pode ser exemplificada como:∗ ∗ ∗∗ ∗num_74 ∗sex_02 ∗esc_04

Deveria ter mais standes na exposição

O significado de cada variável e a escala nominal que seguem se encontram relacionadasna Figura 3.1

Figura 3.1 – Legenda do Corpus Textual

Page 35: Iramuteq: Um software para análises estatísticas

Capítulo 3. Aplicações 34

3.1 Avaliando o discursoAnálise do discurso é um campo da linguística e da comunicação especializado em

analisar construções ideológicas presentes em um texto. É muito utilizada para analisartextos da mídia e as ideologias que os produzem. A análise do discurso é proposta a partirda filosofia materialista, que põe em questão a prática das ciências humanas e a divisão dotrabalho intelectual. Análise do discurso. In: Wikipédia: a enciclopédia livre. Disponívelem: < https : //pt.wikipedia.org/wiki/An%C3%A1lise_do_discurso > Acesso em: 05nov 2019. O Iramuteq propõe que a análise material seja feita essencialmente atravésdas interpretações empíricas dos gráficos, porquê ele não tem o poder de fornecer umresultado analítico definitivo, e desta forma ele consegue fazer com que cada usuário possater uma visão particular sobre os resultados de um mesmo Corpus textual, possibilitandodiscussões sobre estes resultados por diferentes indivíduos, entretanto com o refinamentodas configurações através do conhecimento prévio do usuário, o resultado pode vir a sercada vez mais preciso e bem definido.

3.1.1 Aplicando análises lexográficas clássicas

As informações deste item estão contidas e são melhor aproveitadas no que dizrespeito a obter interpretações nos itens das próximas sessões, onde as análises gráficassão mais completas e representativas. A Figura ilustra parte da tabela de frequênciassimples das formas ativas, que permite notar o destaque da palavra mais, representando nocontexto dos o desejo do cliente para que se eleve a quantidade de serviços e itens ofertados,seguida pela palavra melhorar, que indica que eles esperam melhorias na qualidade paraas próximas edições.

Figura 3.2 – Tabela de frequências simples das formas ativas

Page 36: Iramuteq: Um software para análises estatísticas

Capítulo 3. Aplicações 35

3.1.2 Aplicando Especificidades e AFC

Para obter uma resposta precisa, o método foi aplicado utilizando apenas as formasativas do Corpus, pois as sentenças curtas geradas das respostas a questão contém formascomplementares em demasia. O escore escolhido foi o Qui-quadrado, por ser mais utilizadona literatura, e as variáveis sexo e escolaridade foram selecionadas.

O gráfico exibido na Figura 3.3, permite a interpretação de que o SEBRAE devemelhorar mais, ou seja, o grupo de respondentes possivelmente está satisfeito com aexperiência ofertada pela empresa durante o período do evento, porém acha que cabemelhorias nesse processo. Entretanto, analisando em separado, a palavra melhorar podedemonstrar que houve indicações de melhorias em varias áreas, e a palavra mais podeindicar que alguns item ou serviço deveria existir em maior quantidade.

Figura 3.3 – Gráfico AFC utilizando escore Qui-quadrado por Sexo e Escolaridade consi-derando Formas ativas

Para visualização do gráfico exibido na Figura 3.3, após a aplicação do método foiutilizado o botão de reconfiguração para alterar a altura da imagem para 700 (setecentos) eo tamanho da fonte para 12 (doze), assim permitindo uma melhor exibição sem prejudicara distância entre as Formas, bem como a captura da imagem por Print Screen já que estemétodo não oferece exportação do gráfico pelo programa.

Page 37: Iramuteq: Um software para análises estatísticas

Capítulo 3. Aplicações 36

3.1.3 Aplicando Análise de Similitude

Neste item a configuração de Comunidades e a utilização da opção Halo melhoramsignificativamente a visualização da distinção dos centros e ramos da árvore, potencializandoa delimitação da estrutura do Corpus e a interação entre as palavras chave para oentendimento do discurso. Como pode ser visto na Figura 3.4 o grafo resultante destacaas palavras sebrae, espaço, mais e melhorar, as ligando por um ramo denso, demonstrandoque elas tem alta correlação, em que é possível inferir numa análise direta que o espaço doSebrae deveria melhorar mais, dito isto, também é factível deduzir através da configuraçãodas comunidades quais itens não têm relação com o contexto, pois estes ficaram separadosem outro grupo e ligados por ramos menos densos.

Além disso, uma análise provável seria inferir que os itens correlacionados àspalavras mais e melhorar, relatam quais pontos se deve ter atenção para ampliar emvolume, como por exemplo, mais expositores, stands e oficinas, e refinar em qualidade, comopor exemplo, melhorar a sinalização, o estacionamento e os preços. Também é possívelidentificar através da junção das palavras espaço e sebrae em destaque no mesmo grupo esendo ligadas a muito, bom, e melhor, que o espaço que a empresa preparou para o eventosuperou as expectativas e possivelmente se destacou em relação aos outros espaços dafesta do boi.

Page 38: Iramuteq: Um software para análises estatísticas

Capítulo 3. Aplicações 37

Figura 3.4 – Árvore de Similitude padrão delimitada por comunidades e Halo

3.1.4 Aplicando Nuvem de Palavras

Ao configurar a nuvem de palavras foram levadas em consideração apenas as formasativas, e suas dimensões foram alteradas para 1000 (mil), o intervalo de tamanho do textopassou para a ser de 10 (dez) a 80 (oitenta), e a cor do texto selecionada foi a azul, comum fundo cinza para contraste. A nuvem resultante exibida na Figura 3.5 demonstraos assuntos mais tocados pelos respondentes, ela destaca as palavras mais e melhorar,indicando que o público espera qualidade elevada nas próximas edições da festa, e permitetambém a rápida visualização de temas relevantes como, preço, expositor, stand, sinalização

Page 39: Iramuteq: Um software para análises estatísticas

Capítulo 3. Aplicações 38

etc. que podem indicar em que aspectos a empresa deveria dar mais atenção para aspróximas edições atingirem as expectativas dos consumidores.

Figura 3.5 – Nuvem de Palavras para formas ativas

Page 40: Iramuteq: Um software para análises estatísticas

39

4 Considerações Finais

O Iramuteq demonstrou ser uma boa ferramenta auxiliar para análizes de materiaistranscritos em formato de Corpus textuais, permitindo integrar métodos estatísticos comanálises qualitativas subjetivas através de representações gráficas de entendimento relativosimples e rápido. A ferramenta conta com uma baixa curva de aprendizado para suautilização, mas compensa esta facilidade de uso demandando experiência e conhecimentoteórico significante para montagem de um banco de dados que possa ser aproveitado demaneira a extrair dos textos resultados mais satisfatórios e precisos, bem como um olharcrítico e embasado na área investigada para que a interpretação do resultado seja corretae proveitosa.

É possível explorar o Software amplamente em trabalhos futuros, por exemplo:

• a. Implementar os métodos e análises porpostas pelo Iramuteq utilizando a interfacedo R.

• b. Implementar os métodos e análises porpostas pelo Iramuteq utilizando a linguagemPythom.

• c. Descrever o uso correto do Iramuteq no sistema IOS

• d. Descrever o uso correto do Iramuteq no sistema Linux

• e. Propor uma comparação da análise de discurso gráfica oferecida pelo Iramuteq euma análise de discurso lógica, como as propostas por Noam Chomsky.

• f. Aprofundar a discussão sobre um dos métodos propostos pelo Iramuteq, como aanálise de similitude.

• g. Descrever a utilização de matrizes ao invés de Corpus textuais pelo Iramuteq.

Page 41: Iramuteq: Um software para análises estatísticas

40

Referências

Camargo, B. V., Justo, A. M. (2016). Tutorial para uso do software IRAMUTEQ.Disponível em http://www.iramuteq.org/documentation/fichiers/Tutorial%20IRaMuTeQ%20em%20portugues_17.03.2016.pdf

SALVIATI, Maria Elisabeth. Manual do Aplicativo Iramuteq: compilação, or-ganização e notas. In: Iramuteq.org. Planaltina, DF, 31 mar. 2017. Disponível em:http://www.iramuteq.org/documentation/fichiers/manual-do-aplicativo-iramuteq-par-maria-elisabeth-salviati. Acesso em: 19 nov. 2019.

Foucault e a análise do discurso em educação.FISCHER, Rosa Maria Bueno. Cad.Pesqui. [online]. 2001, n.114, pp.197-223. ISSN 0100-1574. http://dx.doi.org/10.1590/S0100-15742001000300009.

NUNES, Juliane Vargas; WOLOSZYN, Maíra; GONÇALVES, Berenice Santos;PINTO, Marli Dias de Souza. A pesquisa qualitativa apoiada por softwares de análise dedados: Uma investigação a partir de exemplos. Revista Fronteiras: estudos midiáticos, Flori-anópolis, SC, 8 ago. 2017. Disponível em: https://www.academia.edu/36332016/A_pesquisa_qualitativa_apoiada_por_softwares_de_analise_de_dados?email_work_card=thumbnail.Acesso em: 19 nov. 2019.

SANTOS, Viviane et al. IRAMUTEQ nas pesquisas qualitativas brasileiras da áreada saúde: scoping review. Atas CIAIQ, [S. l.], v. 2, 2017. Investigação Qualitativa em, p.392-399.

Laboratório de Políticas Públicas Participativas. Como usar o Iramuteq?. 2016(31m10s). Disponível em: <https://www.youtube.com/watch?v=toTEOutfbu8>. Acesso em:19 nov. 2019.

LEPP-Saúde LEPP-Saúde. 2 Preparando banco de dados textuais do iramuteq. 2017(13m23s). Disponível em: <https://www.youtube.com/watch?v=ygKct1ps_2Y>. Acessoem: 19 nov. 2019.

Teoria dos Grafos. In: Wikipédia: a enciclopédia livre. Disponível em: < https ://pt.wikipedia.org/wiki/Teoria_do_grafos > Acesso em: 04 nov 2019.

Análise do discurso. In: Wikipédia: a enciclopédia livre. Disponível em: < https ://pt.wikipedia.org/wiki/An%C3%A1lise_do_discurso > Acesso em: 05 nov 2019.