Análise Estatística Simples

Veja também: Projetando Pesquisa

Depois de coletar os dados quantitativos, você terá muitos números. Agora é hora de realizar algumas análises estatísticas para entender e tirar algumas inferências de seus dados.

Existe uma ampla gama de técnicas possíveis que você pode usar.

como melhorar sua gramática na escrita

Esta página fornece um breve resumo de algumas das técnicas mais comuns para resumir seus dados e explica quando você usaria cada uma.



Resumindo dados: agrupamento e visualização

A primeira coisa a fazer com qualquer dado é resumi-lo, o que significa apresentá-lo da maneira que melhor conta a história.

O ponto de partida geralmente é agrupar os dados brutos em categorias e / ou visualizá-los. Por exemplo, se você acha que pode estar interessado em diferenças por idade, a primeira coisa a fazer é provavelmente agrupar seus dados em categorias de idade, talvez em blocos de dez ou cinco anos.

Uma das técnicas mais comuns usadas para resumir é usar gráficos , particularmente gráficos de barras, que mostram todos os pontos de dados em ordem, ou histogramas, que são gráficos de barras agrupados em categorias mais amplas.

Um exemplo é mostrado abaixo, que usa três conjuntos de dados, agrupados por quatro categorias. Isso pode ser, por exemplo, 'homens', 'mulheres' e 'outro / nenhum gênero especificado', agrupados por categorias de idade 20-29, 30-39, 40-49 e 50-59.

Exemplo de histograma

Uma alternativa para um histograma é um gráfico de linha , que plota cada ponto de dados e os une com uma linha. Os mesmos dados do gráfico de barras são exibidos em um gráfico de linha abaixo.

Gráfico de linhas de exemplo

Não é difícil desenhar um histograma ou gráfico de linha à mão, como você deve se lembrar da escola, mas as planilhas desenharão um rapidamente e facilmente depois de inserir os dados em uma tabela, evitando problemas. Eles irão até guiá-lo durante o processo.

Visualize seus dados


O importante em desenhar um gráfico é que ele fornece uma 'imagem' imediata dos dados. Isso é importante porque mostra imediatamente se seus dados estão agrupados, espalhados, tendendo a valores altos ou baixos, ou agrupados em torno de um ponto central. Ele também mostrará se você tem quaisquer 'valores discrepantes', ou seja, valores de dados muito altos ou muito baixos, que você pode excluir da análise ou, pelo menos, revisitar para verificar se estão corretos.

Sempre vale a pena desenhar um gráfico antes de iniciar qualquer análise posterior, apenas para dar uma olhada em seus dados.


Você também pode exibir dados agrupados em um gráfico de pizza , como este.

Gráfico de pizza de exemplo

Gráfico de setores são mais bem usados ​​quando você está interessado no tamanho relativo de cada grupo e na proporção do total que se encaixa em cada categoria, pois ilustram muito claramente quais grupos são maiores.

Veja nossa página: Tabelas e gráficos para obter mais informações sobre os diferentes tipos de gráficos e tabelas.

Medidas de localização: médias

O média fornece informações sobre o tamanho do efeito de tudo o que você está testando, em outras palavras, se é grande ou pequeno. Existem três medidas de média: média, mediana e moda.

Veja nossa página em Médias para saber mais sobre como calcular cada um e para uma calculadora rápida.

Quando a maioria das pessoas diz média, elas estão falando sobre o significar . Tem a vantagem de usar todos os valores dos dados obtidos e pode ser usado para análises estatísticas posteriores. No entanto, pode ser distorcido por 'valores discrepantes', valores que são atipicamente grandes ou pequenos.

Como resultado, os pesquisadores às vezes usam o mediana em vez de. Este é o ponto médio de todos os dados. A mediana não é distorcida por valores extremos, mas é mais difícil de usar para análises estatísticas posteriores.

O modo é o valor mais comum em um conjunto de dados. Não pode ser usado para análises estatísticas adicionais.

Os valores da média, mediana e moda são não o mesmo, razão pela qual é realmente importante deixar claro de qual 'média' você está falando.

Avaliando medidas resumidas: robustez e eficiência


Existem dois construtos (ideias ou conceitos) que são comumente usados ​​para avaliar medidas resumidas, como média, mediana e moda. Esses são robustez e eficiência .

  • Robustez é uma medida de quão sensível é a medida de resumo às mudanças na qualidade dos dados.

    como construir um senso de humor

    Essas mudanças na qualidade dos dados podem surgir por meio de outliers, valores extremos em ambas as extremidades ou de ações tomadas durante a análise, como agrupar os dados para análise posterior. Uma medida robusta NÃO é sensível a essas mudanças. A mediana é, portanto, mais robusta do que a média, porque não é afetada por outliers, e o agrupamento provavelmente levará a muito poucas alterações.

  • A eficiência é uma medida de quão bem a medida de resumo usa todos os dados.

    Uma medida mais eficiente usa mais dados. A média é, portanto, muito eficiente, porque usa todos os dados.

Essas duas medidas são, portanto, freqüentemente contraditórias: uma medida mais robusta provavelmente será menos eficiente.

Você precisará decidir o que é mais importante em sua análise.

Medidas de Spread: Faixa, Variância e Desvio Padrão

Os pesquisadores muitas vezes querem olhar para o espalhar dos dados, isto é, quão amplamente os dados estão espalhados por toda a escala de medição possível.

Existem três medidas que são frequentemente utilizadas para isso:

O faixa é a diferença entre o maior e o menor valor. Os pesquisadores costumam citar o intervalo interquartil , que é o intervalo da metade do meio dos dados, de 25%, o quartil inferior, até 75%, o quartil superior, dos valores (a mediana é o valor de 50%). Para encontrar os quartis, use o mesmo procedimento que para a mediana, mas use o ponto de um quarto e três quartos em vez do ponto médio.

O desvio padrão mede a propagação média em torno da média e, portanto, dá uma sensação da distância 'típica' da média.

O variância é o quadrado do desvio padrão. Eles são calculados por:

  1. calcular a diferença de cada valor da média;
  2. quadratura de cada um (para eliminar qualquer diferença entre aqueles acima e abaixo da média);
  3. somando as diferenças quadradas;
  4. dividindo pelo número de itens menos um.

Isso dá a variância .

Para calcular o desvio padrão , calcule a raiz quadrada da variação.

Enviesamento

O enviesamento mede o quão simétrico é o conjunto de dados, ou se ele tem mais valores altos ou mais valores baixos. Uma amostra com valores mais baixos é descrita como inclinada negativamente e uma amostra com valores mais altos como inclinada positivamente.

De modo geral, quanto mais inclinada a amostra, menos coincidirão a média, a mediana e a moda.

Análise Mais Avançada

Depois de calcular alguns valores básicos de localização , como média ou mediana, espalhar , como intervalo e variação, e estabeleceu o nível de enviesamento , você pode passar para uma análise estatística mais avançada e começar a procurar padrões nos dados.

Continua a:
Tipos de Dados
Análise multivariada