Intervalo de confianza para estimar la media (se conoce la varianza) en MS EXCEL. Intervalo de confianza. ABC de las estadísticas médicas. Capítulo III

Intervalo de confianza para la expectativa matemática - este es un intervalo calculado a partir de datos que, con una probabilidad conocida, contiene la expectativa matemática de la población general. Una estimación natural de la expectativa matemática es la media aritmética de sus valores observados. Por lo tanto, a lo largo de la lección usaremos los términos “promedio” y “valor promedio”. En los problemas de cálculo de un intervalo de confianza, la respuesta que se requiere con más frecuencia es algo así como "El intervalo de confianza del número promedio [valor en un problema particular] es de [valor menor] a [valor mayor]". Utilizando un intervalo de confianza, es posible evaluar no solo los valores promedio, sino también el peso específico de una característica particular de la población general. En la lección se analizan los valores medios, la dispersión, la desviación estándar y el error, a través de los cuales llegaremos a nuevas definiciones y fórmulas. Características de la muestra y la población. .

Estimaciones puntuales y de intervalo de la media.

Si el valor promedio de la población se estima mediante un número (punto), entonces se toma como estimación del valor promedio desconocido de la población un promedio específico, que se calcula a partir de una muestra de observaciones. En este caso, el valor de la media muestral (una variable aleatoria) no coincide con el valor medio de la población general. Por lo tanto, al indicar la media muestral, se debe indicar simultáneamente el error muestral. La medida del error muestral es el error estándar, que se expresa en las mismas unidades que la media. Por lo tanto, se suele utilizar la siguiente notación: .

Si es necesario asociar la estimación del promedio con una cierta probabilidad, entonces el parámetro de interés en la población debe estimarse no mediante un número, sino mediante un intervalo. Un intervalo de confianza es un intervalo en el que, con una cierta probabilidad PAG Se encuentra el valor del indicador de población estimada. Intervalo de confianza en el que es probable PAG = 1 - α Se encuentra la variable aleatoria, calculada de la siguiente manera:

,

α = 1 - PAG, que se puede encontrar en el apéndice de casi cualquier libro sobre estadística.

En la práctica, la media poblacional y la varianza no se conocen, por lo que la varianza poblacional se reemplaza por la varianza muestral y la media poblacional por la media muestral. Por tanto, el intervalo de confianza en la mayoría de los casos se calcula de la siguiente manera:

.

La fórmula del intervalo de confianza se puede utilizar para estimar la media poblacional si

  • se conoce la desviación estándar de la población;
  • o se desconoce la desviación estándar de la población, pero el tamaño de la muestra es mayor que 30.

La media muestral es una estimación insesgada de la media poblacional. A su vez, la varianza muestral no es una estimación insesgada de la varianza poblacional. Para obtener una estimación insesgada de la varianza poblacional en la fórmula de varianza muestral, el tamaño de la muestra norte debe ser reemplazado por norte-1.

Ejemplo 1. Se recopiló información de 100 cafés seleccionados al azar en una determinada ciudad de que el número promedio de empleados en ellos es 10,5 con una desviación estándar de 4,6. Determine el intervalo de confianza del 95% para el número de empleados de una cafetería.

¿Dónde está el valor crítico de la distribución normal estándar para el nivel de significancia? α = 0,05 .

Así, el intervalo de confianza del 95% para el número medio de empleados de cafeterías osciló entre 9,6 y 11,4.

Ejemplo 2. Para una muestra aleatoria de la población de 64 observaciones, se calcularon los siguientes valores totales:

suma de valores en observaciones,

suma de desviaciones al cuadrado de valores del promedio .

Calcule el intervalo de confianza del 95% para la expectativa matemática.

Calculemos la desviación estándar:

,

Calculemos el valor medio:

.

Sustituimos los valores en la expresión del intervalo de confianza:

¿Dónde está el valor crítico de la distribución normal estándar para el nivel de significancia? α = 0,05 .

Obtenemos:

Así, el intervalo de confianza del 95% para la expectativa matemática de esta muestra osciló entre 7,484 y 11,266.

Ejemplo 3. Para una muestra de población aleatoria de 100 observaciones, la media calculada es 15,2 y la desviación estándar es 3,2. Calcule el intervalo de confianza del 95% para el valor esperado y luego el intervalo de confianza del 99%. Si el poder de la muestra y su variación permanecen sin cambios y el coeficiente de confianza aumenta, ¿se estrechará o ampliará el intervalo de confianza?

Sustituimos estos valores en la expresión del intervalo de confianza:

¿Dónde está el valor crítico de la distribución normal estándar para el nivel de significancia? α = 0,05 .

Obtenemos:

.

Así, el intervalo de confianza del 95% para la media de esta muestra osciló entre 14,57 y 15,82.

Nuevamente sustituimos estos valores en la expresión del intervalo de confianza:

¿Dónde está el valor crítico de la distribución normal estándar para el nivel de significancia? α = 0,01 .

Obtenemos:

.

Así, el intervalo de confianza del 99% para la media de esta muestra osciló entre 14,37 y 16,02.

Como vemos, a medida que aumenta el coeficiente de confianza, el valor crítico de la distribución normal estándar también aumenta y, en consecuencia, los puntos inicial y final del intervalo se ubican más lejos de la media y, por lo tanto, aumenta el intervalo de confianza para la expectativa matemática. .

Estimaciones puntuales y de intervalo de gravedad específica.

La proporción de algún atributo de la muestra se puede interpretar como una estimación puntual de la proporción. pag de la misma característica en la población general. Si es necesario asociar este valor con la probabilidad, entonces se debe calcular el intervalo de confianza de la gravedad específica. pag característica en la población con probabilidad PAG = 1 - α :

.

Ejemplo 4. En alguna ciudad hay dos candidatos. A Y B se postulan para alcalde. Se encuestó aleatoriamente a 200 vecinos de la ciudad, de los cuales el 46% respondió que votaría por el candidato A, 26% - para el candidato B y el 28% no sabe por quién votará. Determine el intervalo de confianza del 95% para la proporción de residentes de la ciudad que apoyan al candidato. A.

A menudo, el tasador tiene que analizar el mercado inmobiliario del segmento en el que se encuentra la propiedad que se está tasando. Si el mercado está desarrollado, puede resultar difícil analizar el conjunto completo de objetos presentados, por lo que se utiliza una muestra de objetos para el análisis. Esta muestra no siempre resulta homogénea; a veces es necesario limpiarla de puntos extremos: ofertas de mercado demasiado altas o demasiado bajas. Para este fin se utiliza intervalo de confianza. El propósito de este estudio es realizar un análisis comparativo de dos métodos para calcular el intervalo de confianza y seleccionar la opción de cálculo óptima cuando se trabaja con diferentes muestras en el sistema estimatica.pro.

El intervalo de confianza es un intervalo de valores de atributos calculado sobre la base de una muestra que, con una probabilidad conocida, contiene el parámetro estimado de la población general.

El objetivo de calcular un intervalo de confianza es construir dicho intervalo basándose en datos de muestra de modo que pueda afirmarse con una probabilidad dada que el valor del parámetro estimado está en este intervalo. En otras palabras, el intervalo de confianza contiene el valor desconocido del valor estimado con una cierta probabilidad. Cuanto más amplio sea el intervalo, mayor será la inexactitud.

Existen diferentes métodos para determinar el intervalo de confianza. En este artículo veremos 2 métodos:

  • a través de la mediana y la desviación estándar;
  • a través del valor crítico del estadístico t (coeficiente de Student).

Etapas de análisis comparativo de diferentes métodos de cálculo de CI:

1. formar una muestra de datos;

2. lo procesamos mediante métodos estadísticos: calculamos el valor medio, la mediana, la varianza, etc.;

3. calcular el intervalo de confianza de dos formas;

4. analizar las muestras limpiadas y los intervalos de confianza resultantes.

Etapa 1. Muestreo de datos

La muestra se formó utilizando el sistema estimatica.pro. La muestra incluyó 91 ofertas para la venta de apartamentos de 1 habitación en la tercera zona de precios con el tipo de diseño "Khrushchev".

Tabla 1. Muestra inicial

Precio 1 m2, unidad

Fig.1. Muestra inicial



Etapa 2. Procesamiento de la muestra inicial.

Procesar una muestra utilizando métodos estadísticos requiere calcular los siguientes valores:

1. Media aritmética

2. Mediana: un número que caracteriza la muestra: exactamente la mitad de los elementos de la muestra son mayores que la mediana y la otra mitad son menores que la mediana.

(para una muestra con un número impar de valores)

3. Rango: la diferencia entre los valores máximo y mínimo en la muestra.

4. Varianza: se utiliza para estimar con mayor precisión la variación de los datos.

5. La desviación estándar muestral (en adelante, DE) es el indicador más común de la dispersión de los valores de ajuste alrededor de la media aritmética.

6. Coeficiente de variación: refleja el grado de dispersión de los valores de ajuste.

7. coeficiente de oscilación: refleja la fluctuación relativa de los valores de precios extremos en la muestra alrededor del promedio

Tabla 2. Indicadores estadísticos de la muestra original

El coeficiente de variación, que caracteriza la homogeneidad de los datos, es del 12,29%, pero el coeficiente de oscilación es demasiado alto. Así, podemos decir que la muestra original no es homogénea, por lo que pasemos al cálculo del intervalo de confianza.

Etapa 3. Cálculo del intervalo de confianza

Método 1. Cálculo utilizando la mediana y la desviación estándar.

El intervalo de confianza se determina de la siguiente manera: valor mínimo: la desviación estándar se resta de la mediana; valor máximo: la desviación estándar se suma a la mediana.

Por tanto, el intervalo de confianza (47179 CU; 60689 CU)

Arroz. 2. Valores que se encuentran dentro del intervalo de confianza 1.



Método 2. Construcción de un intervalo de confianza utilizando el valor crítico del estadístico t (coeficiente de Student)

SV Gribovsky en su libro "Métodos matemáticos para estimar el valor de la propiedad" describe un método para calcular el intervalo de confianza mediante el coeficiente de Student. Al calcular con este método, el propio estimador debe establecer el nivel de significancia ∝, que determina la probabilidad con la que se construirá el intervalo de confianza. Normalmente se utilizan niveles de significancia de 0,1; 0,05 y 0,01. Corresponden a probabilidades de confianza de 0,9; 0,95 y 0,99. Con este método, se supone que los valores verdaderos de la esperanza y la varianza matemáticas son prácticamente desconocidos (lo que casi siempre es cierto cuando se resuelven problemas prácticos de estimación).

Fórmula del intervalo de confianza:

n - tamaño de la muestra;

El valor crítico de la estadística t (distribución de Student) con un nivel de significancia ∝, el número de grados de libertad n-1, que se determina a partir de tablas estadísticas especiales o utilizando MS Excel (→"Estadístico"→ ESTUDIANTE);

∝ - nivel de significancia, tome ∝=0,01.

Arroz. 2. Valores que se encuentran dentro del intervalo de confianza 2.

Etapa 4. Análisis de diferentes métodos para calcular el intervalo de confianza.

Dos métodos para calcular el intervalo de confianza, mediante la mediana y el coeficiente de Student, dieron lugar a diferentes valores de los intervalos. En consecuencia, obtuvimos dos muestras limpias diferentes.

Tabla 3. Estadísticas para tres muestras.

Indicador

Muestra inicial

1 opción

Opción 2

Valor medio

Dispersión

Coef. variaciones

Coef. oscilaciones

Número de objetos retirados, uds.

Con base en los cálculos realizados, podemos decir que los valores del intervalo de confianza obtenidos por diferentes métodos se cruzan, por lo que se puede utilizar cualquiera de los métodos de cálculo a criterio del tasador.

Sin embargo, creemos que cuando se trabaja en el sistema estimatica.pro, es aconsejable elegir un método para calcular el intervalo de confianza en función del grado de desarrollo del mercado:

  • si el mercado no está desarrollado, utilice el método de cálculo utilizando la mediana y la desviación estándar, ya que el número de objetos retirados en este caso es pequeño;
  • si el mercado está desarrollado, aplicar el cálculo mediante el valor crítico del estadístico t (coeficiente de Student), ya que es posible formar una muestra inicial grande.

En la preparación del artículo se utilizó lo siguiente:

1. Gribovsky S.V., Sivets S.A., Levykina I.A. Métodos matemáticos para evaluar el valor de la propiedad. Moscú, 2014

2. Datos del sistema estimatica.pro

Uno de los métodos para resolver problemas estadísticos es calcular el intervalo de confianza. Se utiliza como una alternativa preferible a la estimación puntual cuando el tamaño de la muestra es pequeño. Cabe señalar que el proceso de cálculo del intervalo de confianza en sí es bastante complejo. Pero las herramientas de Excel lo hacen algo más fácil. Averigüemos cómo se hace esto en la práctica.

Este método se utiliza para la estimación de intervalos de varias cantidades estadísticas. La tarea principal de este cálculo es eliminar las incertidumbres de la estimación puntual.

En Excel, existen dos opciones principales para realizar cálculos con este método: cuando se conoce la varianza y cuando se desconoce. En el primer caso, la función se utiliza para cálculos. NORMA DE CONFIANZA, y en el segundo - FIDEICOMISARIO.ESTUDIANTE.

Método 1: función NORMA DE CONFIANZA

Operador NORMA DE CONFIANZA, que pertenece al grupo de funciones estadísticas, apareció por primera vez en Excel 2010. Las versiones anteriores de este programa utilizan su análogo CONFIANZA. El propósito de este operador es calcular un intervalo de confianza distribuido normalmente para la media poblacional.

Su sintaxis es la siguiente:

CONFIANZA.NORM(alfa;estándar_apagado;tamaño)

"Alfa"— un argumento que indica el nivel de significancia que se utiliza para calcular el nivel de confianza. El nivel de confianza es igual a la siguiente expresión:

(1-"Alfa")*100

"Desviación estándar"- Este es un argumento cuya esencia se desprende del nombre. Esta es la desviación estándar de la muestra propuesta.

"Tamaño"— argumento que define el tamaño de la muestra.

Todos los argumentos para este operador son obligatorios.

Función CONFIANZA Tiene exactamente los mismos argumentos y posibilidades que el anterior. Su sintaxis es:

CONFIANZA(alfa, estándar_apagado, tamaño)

Como puede ver, las diferencias están sólo en el nombre del operador. Por motivos de compatibilidad, esta función se deja en Excel 2010 y versiones más recientes en una categoría especial "Compatibilidad". En versiones de Excel 2007 y anteriores, está presente en el grupo principal de operadores estadísticos.

El límite del intervalo de confianza se determina mediante la siguiente fórmula:

X+(-)NORMA DE CONFIANZA

Dónde incógnita es el valor promedio de la muestra, que se encuentra en el medio del rango seleccionado.

Ahora veamos cómo calcular un intervalo de confianza usando un ejemplo específico. Se realizaron 12 pruebas, dando resultados diferentes, que se enumeran en la tabla. Esta es nuestra totalidad. La desviación estándar es 8. Necesitamos calcular el intervalo de confianza al nivel de confianza del 97%.

  1. Seleccione la celda donde se mostrará el resultado del procesamiento de datos. Haga clic en el botón "Función Insertar".
  2. Aparece Asistente de funciones. Ir a la categoría "Estadístico" y resaltar el nombre "NORMA DE CONFIANZA". Después de eso, haga clic en el botón "DE ACUERDO".
  3. Se abre la ventana de argumentos. Sus campos corresponden naturalmente a los nombres de los argumentos.
    Coloque el cursor en el primer campo - "Alfa". Aquí debemos indicar el nivel de significancia. Como recordamos, nuestro nivel de confianza es del 97%. Al mismo tiempo dijimos que se calcula de esta forma:

    (nivel de confianza 1)/100

    Es decir, sustituyendo el valor obtenemos:

    Mediante cálculos simples descubrimos que el argumento "Alfa" es igual 0,03 . Introduzca este valor en el campo.

    Como se sabe, por condición la desviación estándar es igual a 8 . Por lo tanto, en el campo "Desviación estándar" simplemente anota este número.

    en el campo "Tamaño" debe ingresar el número de elementos de prueba realizados. Como recordamos, sus 12 . Pero para automatizar la fórmula y no editarla cada vez que realizamos una nueva prueba, establezcamos este valor no con un número ordinario, sino usando el operador. CONTROLAR. Entonces, coloquemos el cursor en el campo. "Tamaño" y luego haga clic en el triángulo, que se encuentra a la izquierda de la barra de fórmulas.

    Aparece una lista de funciones utilizadas recientemente. Si el operador CONTROLAR ha sido utilizado por usted recientemente, debería estar en esta lista. En este caso, sólo necesitas hacer clic en su nombre. De lo contrario, si no lo encuentras, entonces ve al punto. "Otras funciones...".

  4. Aparece uno ya familiar Asistente de funciones. Volvamos al grupo otra vez. "Estadístico". Destacamos allí el nombre. "CONTROLAR". Haga clic en el botón "DE ACUERDO".
  5. Aparece la ventana de argumentos para la declaración anterior. Esta función está diseñada para calcular la cantidad de celdas en un rango específico que contienen valores numéricos. Su sintaxis es la siguiente:

    CONTAR(valor1,valor2,…)

    grupo de argumentos "Valores" es una referencia al rango en el que desea calcular el número de celdas llenas de datos numéricos. En total puede haber hasta 255 argumentos de este tipo, pero en nuestro caso solo necesitamos uno.

    Coloque el cursor en el campo. "Valor1" y, manteniendo pulsado el botón izquierdo del ratón, seleccionar en la hoja el rango que contiene nuestra colección. Entonces su dirección se mostrará en el campo. Haga clic en el botón "DE ACUERDO".

  6. Luego de esto, la aplicación realizará el cálculo y mostrará el resultado en la celda donde se encuentra. En nuestro caso particular, la fórmula quedó así:

    NORMA DE CONFIANZA(0.03,8,COUNT(B2:B13))

    El resultado global de los cálculos fue 5,011609 .

  7. Pero eso no es todo. Como recordamos, el límite del intervalo de confianza se calcula sumando y restando el resultado del cálculo de la media muestral. NORMA DE CONFIANZA. De esta forma se calculan los límites derecho e izquierdo del intervalo de confianza, respectivamente. La media muestral en sí se puede calcular usando el operador PROMEDIO.

    Este operador está diseñado para calcular la media aritmética de un rango seleccionado de números. Tiene la siguiente sintaxis bastante simple:

    PROMEDIO(número1,número2,…)

    Argumento "Número" Puede ser un valor numérico único o una referencia a celdas o incluso rangos completos que las contienen.

    Entonces, seleccione la celda en la que se mostrará el cálculo del valor promedio y haga clic en el botón "Función Insertar".

  8. Abre Asistente de funciones. Volviendo a la categoría "Estadístico" y seleccione un nombre de la lista "PROMEDIO". Como siempre, haz clic en el botón "DE ACUERDO".
  9. Se abre la ventana de argumentos. Coloque el cursor en el campo. "Número1" y manteniendo pulsado el botón izquierdo del ratón, seleccione todo el rango de valores. Después de que las coordenadas se muestren en el campo, haga clic en el botón "DE ACUERDO".
  10. Después PROMEDIO muestra el resultado del cálculo en un elemento de hoja.
  11. Calculamos el límite derecho del intervalo de confianza. Para hacer esto, seleccione una celda separada y ponga el signo «=» y sumar el contenido de los elementos de la hoja en los que se encuentran los resultados de los cálculos de funciones. PROMEDIO Y NORMA DE CONFIANZA. Para realizar el cálculo, presione el botón Ingresar. En nuestro caso, obtuvimos la siguiente fórmula:

    Resultado del cálculo: 6,953276

  12. De la misma forma calculamos el límite izquierdo del intervalo de confianza, solo que esta vez a partir del resultado del cálculo. PROMEDIO restar el resultado del cálculo del operador NORMA DE CONFIANZA. La fórmula resultante para nuestro ejemplo es del siguiente tipo:

    Resultado del cálculo: -3,06994

  13. Intentamos describir en detalle todos los pasos para calcular el intervalo de confianza, por lo que describimos cada fórmula en detalle. Pero puedes combinar todas las acciones en una sola fórmula. El cálculo del límite derecho del intervalo de confianza se puede escribir de la siguiente manera:

    PROMEDIO(B2:B13)+CONFIANZA.NORM(0.03,8,COUNT(B2:B13))

  14. Un cálculo similar para el borde izquierdo quedaría así:

    PROMEDIO(B2:B13)-CONFIANZA.NORM(0.03,8,COUNT(B2:B13))

Método 2: función CONFIANZA.ESTUDIANTE

Además, Excel tiene otra función asociada con el cálculo del intervalo de confianza: FIDEICOMISARIO.ESTUDIANTE. Solo apareció en Excel 2010. Este operador calcula el intervalo de confianza de la población utilizando la distribución de Student. Es muy conveniente utilizarlo cuando se desconoce la varianza y, en consecuencia, la desviación estándar. La sintaxis del operador es:

CONFIANZA.ESTUDIANTE(alfa,estándar_apagado,tamaño)

Como puede ver, los nombres de los operadores se mantuvieron sin cambios en este caso.

Veamos cómo calcular los límites de un intervalo de confianza con una desviación estándar desconocida usando el ejemplo de la misma población que consideramos en el método anterior. Tomemos el nivel de confianza de la última vez en 97%.

  1. Seleccione la celda en la que se realizará el cálculo. Haga clic en el botón "Función Insertar".
  2. en el abierto Asistente de funciones ir a la categoría "Estadístico". Seleccione un nombre "ESTUDIANTE DE CONFIANZA". Haga clic en el botón "DE ACUERDO".
  3. Se abre la ventana de argumentos para el operador especificado.

    en el campo "Alfa", dado que el nivel de confianza es del 97%, anotamos el número 0,03 . Por segunda vez no nos detendremos en los principios de cálculo de este parámetro.

    Después de esto, coloque el cursor en el campo "Desviación estándar". Esta vez desconocemos este indicador y es necesario calcularlo. Esto se hace usando una función especial: DESVEST.V. Para abrir la ventana de este operador, haga clic en el triángulo a la izquierda de la barra de fórmulas. Si no encontramos el nombre deseado en la lista que se abre, vaya al elemento "Otras funciones...".

  4. Comienza Asistente de funciones. Pasar a la categoría "Estadístico" y marca el nombre en él "DESVEST.B". Luego haga clic en el botón "DE ACUERDO".
  5. Se abre la ventana de argumentos. La tarea del operador DESVEST.V es determinar la desviación estándar de una muestra. Su sintaxis se ve así:

    DESVIACIÓN ESTÁNDAR.B(número1;número2;…)

    No es difícil adivinar que el argumento "Número" es la dirección del elemento de selección. Si la selección se coloca en una única matriz, entonces puede usar solo un argumento para proporcionar un enlace a este rango.

    Coloque el cursor en el campo. "Número1" y, como siempre, manteniendo pulsado el botón izquierdo del ratón, seleccionamos la colección. Una vez que las coordenadas estén en el campo, no se apresure a presionar el botón "DE ACUERDO", ya que el resultado será incorrecto. Primero debemos volver a la ventana de argumentos del operador. FIDEICOMISARIO.ESTUDIANTE para agregar el argumento final. Para hacer esto, haga clic en el nombre correspondiente en la barra de fórmulas.

  6. Se abre nuevamente la ventana de argumentos para la función ya familiar. Coloque el cursor en el campo. "Tamaño". Nuevamente pulsamos sobre el triángulo que ya conocemos para ir a la selección de operadores. Como comprenderás, necesitamos un nombre. "CONTROLAR". Como usamos esta función en los cálculos del método anterior, está presente en esta lista, así que simplemente haga clic en ella. Si no lo encuentra, siga el algoritmo descrito en el primer método.
  7. Una vez en la ventana de argumentos CONTROLAR, coloque el cursor en el campo "Número1" y con el botón del ratón pulsado, selecciona la colección. Luego haga clic en el botón "DE ACUERDO".
  8. Después de esto, el programa realiza un cálculo y muestra el valor del intervalo de confianza.
  9. Para determinar los límites, nuevamente necesitaremos calcular la media muestral. Pero, dado que el algoritmo de cálculo mediante la fórmula PROMEDIO Lo mismo que en el método anterior, e incluso el resultado no ha cambiado, no nos detendremos en esto por segunda vez.
  10. Sumando los resultados del cálculo. PROMEDIO Y FIDEICOMISARIO.ESTUDIANTE, obtenemos el límite derecho del intervalo de confianza.
  11. Restar de los resultados del cálculo del operador. PROMEDIO resultado del cálculo FIDEICOMISARIO.ESTUDIANTE, tenemos el límite izquierdo del intervalo de confianza.
  12. Si el cálculo se escribe en una fórmula, entonces el cálculo del límite derecho en nuestro caso se verá así:

    PROMEDIO(B2:B13)+CONFIANZA.ESTUDIANTE(0.03,DESVEST.B(B2:B13),CONTAR(B2:B13))

  13. En consecuencia, la fórmula para calcular el borde izquierdo se verá así:

    PROMEDIO(B2:B13)-CONFIANZA.ESTUDIANTE(0.03,DESVEST.B(B2:B13),CONTAR(B2:B13))

Como puede ver, las herramientas de Excel facilitan mucho el cálculo del intervalo de confianza y sus límites. Para estos fines, se utilizan operadores separados para muestras cuya varianza es conocida y desconocida.

Cualquier muestra da sólo una idea aproximada de la población general, y todas las características estadísticas de la muestra (media, moda, dispersión...) son alguna aproximación o digamos una estimación de parámetros generales, que en la mayoría de los casos no son posibles de calcular debido a la inaccesibilidad de la población en general (Figura 20) .

Figura 20. Error de muestreo

Pero se puede especificar el intervalo en el que, con un cierto grado de probabilidad, se encuentra el valor verdadero (general) de la característica estadística. Este intervalo se llama d intervalo de confianza (IC).

Entonces el valor promedio general con una probabilidad del 95% se encuentra dentro

desde hasta, (20)

Dónde t – valor de la tabla de la prueba de Student para α =0,05 y F= norte-1

También se puede encontrar un IC del 99%, en este caso t seleccionado para α =0,01.

¿Cuál es el significado práctico de un intervalo de confianza?

    Un intervalo de confianza amplio indica que la media muestral no refleja con precisión la media poblacional. Esto suele deberse a un tamaño de muestra insuficiente o a su heterogeneidad, es decir. gran dispersión. Ambos dan un error de la media mayor y, en consecuencia, un IC más amplio. Y esta es la base para volver a la etapa de planificación de la investigación.

    Los límites superior e inferior del IC proporcionan una estimación de si los resultados serán clínicamente significativos.

Detengámonos con cierto detalle en la cuestión de la importancia estadística y clínica de los resultados del estudio de las propiedades grupales. Recordemos que la tarea de la estadística es detectar al menos algunas diferencias en las poblaciones generales a partir de datos muestrales. El desafío para los médicos es detectar diferencias (no cualquier diferencia) que ayuden al diagnóstico o al tratamiento. Y las conclusiones estadísticas no siempre son la base de las conclusiones clínicas. Por tanto, una disminución estadísticamente significativa de la hemoglobina de 3 g/l no es motivo de preocupación. Y, a la inversa, si algún problema en el cuerpo humano no está muy extendido a nivel de toda la población, esto no es motivo para no abordarlo.

Veamos esta situación ejemplo.

Los investigadores se preguntaron si los niños que han sufrido algún tipo de enfermedad infecciosa van a la zaga en crecimiento con respecto a sus compañeros. Para ello se realizó un estudio muestral en el que participaron 10 niños que habían padecido esta enfermedad. Los resultados se presentan en la Tabla 23.

Tabla 23. Resultados del procesamiento estadístico

límite inferior

límite superior

Estándares (cm)

promedio

De estos cálculos se deduce que la altura media de la muestra de niños de 10 años que han padecido alguna enfermedad infecciosa es cercana a la normal (132,5 cm). Sin embargo, el límite inferior del intervalo de confianza (126,6 cm) indica que existe un 95% de probabilidad de que la verdadera talla promedio de estos niños corresponda al concepto de “talla baja”, es decir, Estos niños tienen retraso en el crecimiento.

En este ejemplo, los resultados de los cálculos del intervalo de confianza son clínicamente significativos.

INTERVALOS DE CONFIANZA PARA FRECUENCIAS Y FRACCIONES

© 2008

Instituto Nacional de Salud Pública, Oslo, Noruega

El artículo describe y discute el cálculo de intervalos de confianza para frecuencias y proporciones utilizando los métodos de Wald, Wilson, Clopper - Pearson, utilizando la transformación angular y el método de Wald con corrección de Agresti - Coull. El material presentado proporciona información general sobre los métodos para calcular intervalos de confianza para frecuencias y proporciones y tiene como objetivo despertar el interés de los lectores de revistas no solo en el uso de intervalos de confianza al presentar los resultados de su propia investigación, sino también en la lectura de literatura especializada antes de comenzar a trabajar. sobre futuras publicaciones.

Palabras clave: intervalo de confianza, frecuencia, proporción

Una de las publicaciones anteriores mencionó brevemente la descripción de datos cualitativos e informó que su estimación de intervalo es preferible a la estimación puntual para describir la frecuencia de aparición de la característica que se está estudiando en la población. De hecho, dado que la investigación se realiza utilizando datos de muestra, la proyección de los resultados sobre la población debe contener un elemento de imprecisión muestral. El intervalo de confianza es una medida de la precisión del parámetro que se estima. Es interesante que algunos libros sobre estadística básica para médicos ignoren por completo el tema de los intervalos de confianza para las frecuencias. En este artículo veremos varias formas de calcular intervalos de confianza para frecuencias, lo que implica características de muestra como la no repetición y la representatividad, así como la independencia de las observaciones entre sí. En este artículo, la frecuencia no se entiende como un número absoluto que muestra cuántas veces ocurre un valor particular en el agregado, sino como un valor relativo que determina la proporción de participantes del estudio en quienes ocurre la característica estudiada.

En la investigación biomédica, los intervalos de confianza del 95% son los más utilizados. Este intervalo de confianza es el área dentro de la cual la verdadera proporción cae el 95% de las veces. En otras palabras, podemos decir con un 95% de confiabilidad que el valor real de la frecuencia de aparición de un rasgo en la población estará dentro del intervalo de confianza del 95%.

La mayoría de los manuales de estadística para investigadores médicos informan que el error de frecuencia se calcula mediante la fórmula

donde p es la frecuencia de aparición de la característica en la muestra (valor de 0 a 1). La mayoría de los artículos científicos nacionales indican la frecuencia de aparición de un rasgo en una muestra (p), así como sus errores en la forma p ± s. Sin embargo, es más apropiado presentar un intervalo de confianza del 95% para la frecuencia de aparición de un rasgo en la población, que incluirá valores de

a.

Algunos manuales recomiendan que, para muestras pequeñas, se reemplace el valor de 1,96 con el valor t para N – 1 grados de libertad, donde N es el número de observaciones en la muestra. El valor t se encuentra en las tablas de distribución t, disponibles en casi todos los libros de texto de estadística. El uso de la distribución t para el método de Wald no proporciona ventajas visibles en comparación con otros métodos que se analizan a continuación y, por lo tanto, algunos autores no lo recomiendan.

El método presentado anteriormente para calcular intervalos de confianza para frecuencias o proporciones se denomina Wald en honor a Abraham Wald (1902-1950), ya que su uso generalizado comenzó después de la publicación de Wald y Wolfowitz en 1939. Sin embargo, el método en sí fue propuesto por Pierre Simon Laplace (1749-1827) en 1812.

El método Wald es muy popular, pero su aplicación plantea importantes problemas. El método no se recomienda para tamaños de muestra pequeños, así como en los casos en que la frecuencia de aparición de una característica tiende a 0 o 1 (0% o 100%) y es simplemente imposible para frecuencias de 0 y 1. Además, el la aproximación de la distribución normal, que se utiliza al calcular el error, “no funciona” en los casos en que n · p< 5 или n · (1 – p) < 5 . Более консервативные статистики считают, что n · p и n · (1 – p) должны быть не менее 10 . Более детальное рассмотрение метода Вальда показало, что полученные с его помощью доверительные интервалы в большинстве случаев слишком узки, то есть их применение ошибочно создает слишком оптимистичную картину, особенно при удалении частоты встречаемости признака от 0,5, или 50 % . К тому же при приближении частоты к 0 или 1 доверительный интревал может принимать отрицательные значения или превышать 1, что выглядит абсурдно для частот. Многие авторы совершенно справедливо не рекомендуют применять данный метод не только в уже упомянутых случаях, но и тогда, когда частота встречаемости признака менее 25 % или более 75 % . Таким образом, несмотря на простоту расчетов, метод Вальда может применяться лишь в очень ограниченном числе случаев. Зарубежные исследователи более категоричны в своих выводах и однозначно рекомендуют не применять этот метод для небольших выборок , а ведь именно с такими выборками часто приходится иметь дело исследователям-медикам.

Dado que la nueva variable tiene una distribución normal, los límites inferior y superior del intervalo de confianza del 95% para la variable φ serán φ-1,96 y φ+1,96izquierda">

En lugar de 1,96 para muestras pequeñas, se recomienda sustituir el valor t por N – 1 grados de libertad. Este método no produce valores negativos y permite estimaciones más precisas de los intervalos de confianza para las frecuencias que el método de Wald. Además, se describe en muchos libros de referencia nacionales sobre estadísticas médicas, lo que, sin embargo, no ha llevado a su uso generalizado en la investigación médica. No se recomienda el cálculo de intervalos de confianza mediante transformación angular para frecuencias cercanas a 0 o 1.

Aquí suele terminar la descripción de los métodos para estimar intervalos de confianza en la mayoría de los libros sobre conceptos básicos de estadística para investigadores médicos, y este problema es típico no sólo de la literatura nacional sino también de la extranjera. Ambos métodos se basan en el teorema del límite central, lo que implica una muestra grande.

Teniendo en cuenta las deficiencias de estimar intervalos de confianza utilizando los métodos anteriores, Clopper y Pearson propusieron en 1934 un método para calcular el llamado intervalo de confianza exacto, dada la distribución binomial del rasgo en estudio. Este método está disponible en muchas calculadoras en línea, pero los intervalos de confianza obtenidos de esta manera son en la mayoría de los casos demasiado amplios. Al mismo tiempo, se recomienda el uso de este método en los casos en que sea necesaria una evaluación conservadora. El grado de conservadurismo del método aumenta a medida que disminuye el tamaño de la muestra, especialmente cuando N< 15 . описывает применение функции биномиального распределения для анализа качественных данных с использованием MS Excel, в том числе и для определения доверительных интервалов, однако расчет последних для частот в электронных таблицах не «затабулирован» в удобном для пользователя виде, а потому, вероятно, и не используется большинством исследователей.

Según muchos estadísticos, la evaluación más óptima de los intervalos de confianza de las frecuencias se realiza mediante el método de Wilson, propuesto en 1927, pero prácticamente no utilizado en la investigación biomédica nacional. Este método no sólo permite estimar intervalos de confianza para frecuencias muy pequeñas y muy grandes, sino que también es aplicable para un pequeño número de observaciones. En general, el intervalo de confianza según la fórmula de Wilson tiene la forma



donde toma el valor 1,96 al calcular el intervalo de confianza del 95%, N es el número de observaciones y p es la frecuencia de aparición de la característica en la muestra. Este método está disponible en calculadoras online, por lo que su uso no supone ningún problema. y no recomiendo usar este método para n p< 4 или n · (1 – p) < 4 по причине слишком грубого приближения распределения р к нормальному в такой ситуации, однако зарубежные статистики считают метод Уилсона применимым и для малых выборок .

Además del método de Wilson, también se cree que el método de Wald con corrección de Agresti-Coll proporciona una estimación óptima del intervalo de confianza para las frecuencias. La corrección de Agresti-Coll es una sustitución en la fórmula de Wald de la frecuencia de aparición de una característica en una muestra (p) por p`, al calcular cuál se suma 2 al numerador y 4 al denominador, es decir, p` = (X + 2) / (N + 4), donde X es el número de participantes del estudio que tienen la característica que se está estudiando y N es el tamaño de la muestra. Esta modificación produce resultados muy similares a la fórmula de Wilson, excepto cuando la frecuencia del evento se acerca al 0% o al 100% y la muestra es pequeña. Además de los métodos anteriores para calcular intervalos de confianza para frecuencias, se han propuesto correcciones de continuidad para los métodos de Wald y Wilson para muestras pequeñas, pero los estudios han demostrado que su uso es inadecuado.

Consideremos la aplicación de los métodos anteriores para calcular intervalos de confianza utilizando dos ejemplos. En el primer caso, estudiamos una gran muestra de 1.000 participantes del estudio seleccionados aleatoriamente, de los cuales 450 tienen el rasgo en estudio (este podría ser un factor de riesgo, un resultado o cualquier otro rasgo), lo que representa una frecuencia de 0,45, o 45 %. En el segundo caso, el estudio se lleva a cabo utilizando una muestra pequeña, digamos, solo 20 personas, y solo 1 participante del estudio (5%) tiene el rasgo en estudio. Los intervalos de confianza utilizando el método de Wald, el método de Wald con corrección de Agresti-Coll y el método de Wilson se calcularon utilizando una calculadora en línea desarrollada por Jeff Sauro (http://www./wald.htm). Los intervalos de confianza corregidos por continuidad de Wilson se calcularon utilizando la calculadora proporcionada por Wassar Stats: sitio web para computación estadística (http://faculty.vassar.edu/lowry/prop1.html). Los cálculos de la transformación angular de Fisher se realizaron manualmente utilizando el valor t crítico para 19 y 999 grados de libertad, respectivamente. Los resultados del cálculo se presentan en la tabla para ambos ejemplos.

Intervalos de confianza calculados de seis maneras diferentes para dos ejemplos descritos en el texto.

Método de cálculo del intervalo de confianza

P=0,0500, o 5%

IC del 95% para X=450, N=1000, P=0,4500 o 45%

–0,0455–0,2541

Wald con corrección de Agresti-Coll

<,0001–0,2541

Wilson con corrección de continuidad

Clopper-Pearson "método exacto"

transformación angular

<0,0001–0,1967

Como puede verse en la tabla, para el primer ejemplo el intervalo de confianza calculado utilizando el método Wald “generalmente aceptado” entra en la región negativa, lo que no puede ocurrir con las frecuencias. Desafortunadamente, estos incidentes no son infrecuentes en la literatura rusa. La forma tradicional de presentar los datos en términos de frecuencia y su error enmascara parcialmente este problema. Por ejemplo, si la frecuencia de aparición de un rasgo (en porcentaje) se presenta como 2,1 ± 1,4, entonces esto no es tan “ofensivo para la vista” como 2,1% (IC del 95%: –0,7; 4,9), aunque y significa la misma cosa. El método Wald con corrección de Agresti-Coll y cálculo mediante transformación angular da un límite inferior que tiende a cero. El método de Wilson con corrección de continuidad y el "método exacto" producen intervalos de confianza más amplios que el método de Wilson. Para el segundo ejemplo, todos los métodos dan aproximadamente los mismos intervalos de confianza (las diferencias aparecen solo en milésimas), lo cual no es sorprendente, ya que la frecuencia de ocurrencia del evento en este ejemplo no es muy diferente del 50% y el tamaño de la muestra es bastante grande.

Para los lectores interesados ​​en este problema, podemos recomendar los trabajos de R. G. Newcombe y Brown, Cai y Dasgupta, que proporcionan los pros y los contras de utilizar 7 y 10 métodos diferentes para calcular intervalos de confianza, respectivamente. Entre los manuales nacionales, recomendamos el libro Y, que, además de una descripción detallada de la teoría, presenta los métodos de Wald y Wilson, así como un método para calcular intervalos de confianza teniendo en cuenta la distribución de frecuencia binomial. Además de las calculadoras en línea gratuitas (http://www. /wald. htm y http://faculty. vassar. edu/lowry/prop1.html), se pueden calcular intervalos de confianza para frecuencias (¡y no sólo!) utilizando el Programa CIA (Análisis de Intervalos de Confianza), que se puede descargar desde http://www. escuela de medicina. sotón. C.A. reino unido/cia/ .

El próximo artículo analizará formas univariadas de comparar datos cualitativos.

Referencias

Banerji A. Estadísticas médicas en lenguaje claro: un curso introductorio / A. Banerjee. – M.: Medicina Práctica, 2007. – 287 p. Estadísticas médicas / . – M.: Agencia de Información Médica, 2007. – 475 p. Glanz S. Estadísticas médicas y biológicas / S. Glanz. – M.: Praktika, 1998. Tipos de datos, pruebas de distribución y estadísticas descriptivas // Ecología humana – 2008. – No. 1. – P. 52–58. Zhizhin K. S.. Estadística médica: libro de texto / . – Rostov s/f: Phoenix, 2007. – 160 p. Estadística médica aplicada / , . – San Petersburgo. : Foliot, 2003. – 428 p. Lakin G.F.. Biometría / . – M.: Escuela Superior, 1990. – 350 p. Médico V. A.. Estadística matemática en medicina / , . – M.: Finanzas y Estadísticas, 2007. – 798 p. Estadística matemática en la investigación clínica / , . – M.: GEOTAR-MED, 2001. – 256 p. Junkerov V.. Y. Procesamiento médico y estadístico de datos de investigaciones médicas / , . – San Petersburgo. : VmedA, 2002. – 266 p. Agresti A. Lo aproximado es mejor que lo exacto para la estimación de intervalos de proporciones binomiales / A. Agresti, B. Coull // Estadístico estadounidense. – 1998. – N 52. – P. 119–126. Altman D. Estadísticas con confianza // D. Altman, D. Machin, T. Bryant, M. J. Gardner. – Londres: BMJ Books, 2000. – 240 p. Marrón L.D. Estimación de intervalos para una proporción binomial / L. D. Brown, T. T. Cai, A. Dasgupta // Ciencia estadística. – 2001. – N 2. – P. 101–133. Clopper C.J. El uso de límites de confianza o fiduciales ilustrados en el caso del binomio / C. J. Clopper, E. S. Pearson // Biometrika. – 1934. – N 26. – P. 404–413. García-Pérez M. A. Sobre el intervalo de confianza del parámetro binomial / M. A. García-Pérez // Calidad y cantidad. – 2005. – N 39. – P. 467–481. Motulsky H. Bioestadística intuitiva // H. Motulsky. – Oxford: Oxford University Press, 1995. – 386 p. Newcombe R.G. Intervalos de confianza bilaterales para una proporción única: comparación de siete métodos / R. G. Newcombe // Estadística en medicina. – 1998. – N. 17. – P. 857–872. Sauro J. Estimación de tasas de finalización a partir de muestras pequeñas utilizando intervalos de confianza binomiales: comparaciones y recomendaciones / J. Sauro, J. R. Lewis // Actas de la reunión anual de la sociedad de factores humanos y ergonomía. – Orlando, Florida, 2005. Wald A. Límites de confianza para funciones de distribución continua // A. Wald, J. Wolfovitz // Annals of Mathematical Statistics. – 1939. – N 10. – P. 105–118. Wilson EB. Inferencia probable, ley de sucesión e inferencia estadística / E. B. Wilson // Journal of American Statistical Association. – 1927. – N 22. – P. 209–212.

INTERVALOS DE CONFIANZA PARA PROPORCIONES

A. M. Grjibovski

Instituto Nacional de Salud Pública, Oslo, Noruega

El artículo presenta varios métodos para calcular intervalos de confianza para proporciones binomiales, a saber, los métodos de Wald, Wilson, arcoseno, Agresti-Coull y exacto de Clopper-Pearson. El artículo ofrece sólo una introducción general al problema de la estimación del intervalo de confianza de una proporción binomial y su objetivo no es sólo estimular a los lectores a utilizar intervalos de confianza al presentar los resultados de su propia investigación empírica, sino también animarlos a consultar libros de estadística. antes de analizar datos propios y preparar manuscritos.

Palabras clave: intervalo de confianza, proporción

Información del contacto:

Asesor Principal, Instituto Nacional de Salud Pública, Oslo, Noruega



¿Te gustó el artículo? Compártelo
Arriba