4 Algunas Propiedades de los Estimadores
Nota: El contenido de esta sección es una adaptación al formato Quarto del capítulo 2 secciones 4, 5 y 7 del libro Introducción a la Estadística Inferencial de Luis Rincón (2019).
Teniendo una o posiblemente varias estadísticas que pueden considerarse candidatas para ser usadas como estimadores para los parámetros desconocidos de una distribución de probabilidad, es importante conocer las propiedades que deben cumplir estos estimadores para ser considerados como el mejor estimador posible. Existen varias propiedades que deben cumplir tales estimadores.
Una primera propiedad que se le puede pedir a un estimador es que su valor promedio coincida con el valor del parámetro que se está estimando. A esta propiedad se le denomina insesgamiento.
4.1 Insesgamiento
Definición 4.1 Un estimador \(\hat{\theta}\) se dice que es insesgado para el parámetro \(\theta\) si cumple la condición
\[E(\hat{\theta}) = \theta\]
El concepto de insesgamiento tiene una interpretación frecuentista clara: Si repitiéramos el proceso de muestreo infinitas veces, cada vez obteniendo una muestra diferente de tamaño \(n\) y calculáramos \(\hat{\theta}\) en cada una de estas muestras, el promedio de todos estos valores de \(\hat{\theta}\) sería exactamente igual a \(\theta\).
En los siguientes ejemplos se mostrará que es posible verificar esta propiedad de insesgamiento, a pesar de no conocer el valor del parámetro que se está estimando.
Ejemplo 4.1 Comprobaremos que la media muestral es un estimador insesgado para el parámetro \(\theta\) de una distribución de \(\text{Poisson}(\theta)\). Sea \(X_1, X_2, \ldots, X_n\) una muestra aleatoria proveniente de una población con distribución de Poisson con parámetro \(\theta\). Por la propedad de linealidad de la esperanza, tenemos
\[E(\overline{X}) = E\left(\frac{1}{n} \sum_{i=1}^n X_i\right) = \frac{1}{n} \sum_{i=1}^n E(X_i) = \frac{1}{n} \sum_{i=1}^n \theta = \theta.\]
De esta manera, sin conocer el valor de \(\theta\), hemos comprobado que la esperanza del estimador \(\overline{X}\) coincide con el valor del parámetro que se está estimando, por lo tanto, \(\overline{X}\) es un estimador insesgado para \(\theta\).
Es importante señalar que el cálculo desarrollado en el ejemplo anterior no depende de la distribución en estudio, de modo que podemos afirmar que la media muestral es siempre un estimador insesgado del posible parámetro o función parametral que pudiera aparecer en la esperanza de la variable aleatoria que se está estudiando. Por ejemplo, si la distribución en cuestión es \(\text{bin}(k,p)\), entonces \(\overline{X}\) es un estimador insesgado para la función parametral \(kp\).
Ejemplo 4.2 Consideremos dada una muestra aleatoria de tamaño \(n\), \(X_1, X_2, \ldots, X_n\); proveniente de una población con distribución \(N(\mu, \sigma^2)\). En donde la varianza \(\sigma^2\) es desconocida y es el parámetro que nos interesa estimar. Podemos suponer que el parámetro \(\mu\) es conocido, aunque esta hipótesis no es relevante para el siguiente análisis. Recordemos que la varianza muestral es una estadística definida como
\[S^2 = \frac{1}{n-1} \sum_{i=1}^n (X_i - \overline{X})^2.\]
Comprobaremos que \(S^2\) es un estimador insesgado para el parámetro \(\sigma^2\). Esta es la razón por la que aparece el término \(n-1\) como el denominador en la definición de varianza muestral, y no \(n\), como podría pensarse inicialmente. Tenemos >
\[\begin{equation} \begin{aligned} E(S^2) &= E\left(\frac{1}{n-1} \sum_{i=1}^n (X_i - \overline{X})^2\right) \\ &= \frac{1}{n-1} E\left(\sum_{i=1}^n (X_i - \overline{X})^2\right) \\ &= \frac{1}{n-1} E\left(\sum_{i=1}^n (X_i - 2 X_i \overline{X} + \overline{X})^2\right) \\ &= \frac{1}{n-1} \sum_{i=1}^n \left( E(X_i^2) - 2 E(X_i \overline{X}) + E(\overline{X}^2) \right) \end{aligned} \end{equation}\]
Se puede comprobar que
\[\begin{equation} E(X_iX_j) = \begin{cases} \mu^2 \qquad \text{si } i \neq j \\ \sigma^2 + \mu^2 \qquad \text{si } i = j \end{cases} \end{equation}\]
Sustituyendo estas expresiones en la ecuación anterior y simplificando, se obtiene
\[E(S^2) = \sigma^2.\]
Es decir, la esperanza del estimador \(S^2\) coincide con el valor del parámetro que se está estimando, por lo tanto, \(S^2\) es un estimador insesgado para \(\sigma^2\).
Se observa nuevamente que los cálculos anteriores son válidos para cualquier distribución con segundo momento finito, no únicamente para la distribución normal. Hemos usado únicamente la propiedad de linealidad de la esperanza y las hipótesis de independencia y de idéntica distribución de las variables aleatorias que componen la muestra aleatoria.
Así, la varianza muestral es siempre un estimador insesgado del posible parámetro o función parametral que pudiera aparecer en la varianza de la variable aleatoria que se está estudiando. Por ejemplo, si la distribución en cuestión es \(\text{bin}(k,p)\), entonces \(S^2\) es un estimador insesgado para la función parametral \(kp(1-p)\).
4.2 Insesgamiento asintótico
Si un estimador \(\hat\theta\) para un parámetro desconocido \(\theta\) no es insesgado, entonces se dice que es sesgado y a la diferencia \(E(\hat\theta) - \theta\) se le llama sesgo. Es posible que este sesgo pueda hacerse cada vez más pequeño conforme el tamaño de la muestra \(n\) crece. Si en el límite cuando \(n \to \infty\) el sesgo se hace cero, entonces se dice que el estimador es asintóticamente insesgado. Antes de escribir el enunciado formal de esta definición debemos mencionar que escribiremos \(\hat\theta_n\) en lugar de \(\hat\theta\) cuando deseemos enfatizar la posible dependencia de un estimador del tamaño \(n\) de la muestra aleatoria. Aquí tenemos la definición.
Definición 4.2 Una estadística \(\hat{\theta}_n\), basada en una muestra aleatoria de tamaño \(n\), es un estimador asintóticamente insesgado para un parámetro \(\theta\) si
\[\lim_{n \to \infty} E(\hat{\theta}_n) = \theta.\]
Es evidente que todo estimador insesgado es asintóticamente insesgado, pues la condición anterior se cumple sin necesidad de tomar el límite. Por otro lado, más adelante tendremos múltiples oportunidades de mostrar que existen estimadores asintóticamente insesgados que no son insesgados.
A continuación se presenta un ejemplo de insesgamiento asintótico.
Ejemplo 4.3 Consideremos nuevamente el caso de la distribución \(N(\mu, \sigma^2)\), en donde la varianza \(\sigma^2\) es desconocida. Definimos el estimador
\[\hat{\sigma}^2_n = \frac{1}{n} \sum_{i=1}^n (X_i - \overline{X})^2.\]
Puede comprobarse que \(\hat{\theta}_n\) no es insesgado para \(\theta\), pero sí es asintóticamente insesgado. En efecto, tenemos
\[E(\hat{\theta}_n) = E\left(\frac{n-1}{n}S^2\right) = \frac{n-1}{n}E(S^2) = \frac{n-1}{n}\theta \xrightarrow[\quad]{n \to \infty} \theta\]
De esta manera, aunque \(\hat{\sigma}^2_n\) no es un estimador insesgado para \(\sigma^2\), su valor promedio no dista demasiado del valor del parámetro a estimar cuando el tamaño de la muestra es grande, y en el límite cuando \(n\) tiende a infinito, el sesgo desaparece.
4.3 Sesgo y Error Cuadrático Medio
A continuación se formaliza la definición de sesgo de un estimador.
Definición 4.3 El sesgo de un estimador \(\hat{\theta}\) para un parámetro \(\theta\) se define como la siguiente diferencia
\[B(\hat{\theta}) = E(\hat{\theta}) - \theta.\]
La notación \(B(\hat{\theta})\) es comúnmente usada para denotar el sesgo de un estimador, en ocasiones se usa la notación \(Bias(\hat{\theta})\). Aunque la notación establece que el sesgo es una función del estimador, en realidad el sesgo depende también del parámetro que se está estimando y por lo tanto es puede ser considerada como una función parametral.
La definición implica que cuando el estimador es insesgado, su sesgo es cero. Además, el estimador es asintóticamente insesgado si el límite del sesgo cuando el tamaño de la muestra tiende a infinito es cero.
El sesgo es sólo una de las varias maneras en las que se puede medir algún tipo de distancia entre el estimador y el parámetro a estimar. Otra forma de medir esta distancia es a través del error cuadrático medio (ECM).
Definición 4.4 Sea \(\hat{\theta}\) un estimador para un parámetro \(\theta\). El error cuadrático medio (ECM) de \(\hat{\theta}\) es
\[\text{ECM}(\hat{\theta}) = E(\hat{\theta} - \theta)^2.\]
De esta manera, el error cuadrático medio mide el valor promedio del cuadrado de la distancia entre el estimador y el parámetro que se está estimando, y por lo tanto, también es considerada una función parametral.
El sesgo y el error cuadrático medio están relacionados a través de las siguientes expresiones.
Sea \(\hat{\theta}\) un estimador para un parámetro \(\theta\). Entonces
\(\text{ECM}(\hat{\theta}) = Var(\hat{\theta}) + B^2(\hat{\theta}).\)
\(B(\hat{\theta}) \leq \text{ECM}(\hat{\theta})\)
De la primera igualdad es evidente que cuando el estimador es insesgado, el error cuadrático medio coincide con la varianza del estimador, es decir, \(\text{ECM}(\hat{\theta}) = Var(\hat{\theta})\). Por lo tanto, plantearse el problema de encontrar estimadores insesgados con el ECM más pequeño es equivalente a plantearse el problema de encontrar estimadores insesgados de varianza mínima.
4.4 Consistencia
Otra manera de medir la bondad de un estimador es a través de la propiedad de consistencia. Intuitivamente, un estimador es consistente si al aumentar el tamaño de la muestra, el valor del estimador se acerca cada vez más en probabilidad al valor del parámetro que se está estimando. A continuación se presenta la definición formal de esta propiedad.
Definición 4.5 Sea \(\hat{\theta}_n\) un estimador basado en una muestra aleatoria de tamaño \(n\) para un parámetro \(\theta\). Se dice que \(\hat{\theta}_n\) es un estimador consistente para \(\theta\) si \(\hat{\theta}_n \xrightarrow{P} \theta\) cuando \(n \to \infty\). Es decir, si para todo \(\epsilon > 0\) se cumple que
\[\lim_{n \to \infty} P(|\hat{\theta}_n - \theta| \geq \epsilon) = 0.\]
En general, puede ser difícil verificar la propiedad de consistencia directamente a partir de la definición. Afortunadamente, existen varios resultados que permiten verificar esta propiedad de manera más sencilla. Uno de estos resultados es el siguiente.
Proposición 4.1 Sea \(\hat{\theta}_n\) un estimador basado en una muestra aleatoria de tamaño \(n\) para un parámetro \(\theta\). Entonces, \(\hat{\theta}_n\) es un estimador consistente para \(\theta\) si se cumplen las siguientes dos condiciones:
\(\lim_{n \to \infty} E(\hat{\theta}_n) = \theta.\)
\(\lim_{n \to \infty} Var(\hat{\theta}_n) = 0.\)
Es decir, si un estimador es asintóticamente insesgado y su varianza tiende a cero cuando el tamaño de la muestra tiende a infinito, entonces el estimador es consistente. En particular, cuando se requiera probar que un estimador insesgado es consistente, bastará con probar que su varianza tiende a cero conforme el tamaño de la muestra crece.
4.5 Cota inferior de Cramér-Rao
Una propiedad adicional que puede ser deseable en un estimador es que su varianza sea lo más pequeña posible. En este sentido, existe un límite teórico inferior para la varianza de cualquier estimador insesgado, conocido como la cota inferior de Cramér-Rao. A continuación se presenta el enunciado formal de esta cota.
Teorema 4.1 Sea \(X_1, X_2, \ldots, X_n\) una muestra aleatoria proveniente de una población con función de probabilidad o función de densidad \(f(x; \theta)\), donde \(\theta\) es un parámetro desconocido. Bajo ciertas condiciones de regularidad sobre \(f(x; \theta)\), si \(\hat{\theta}\) es un estimador insesgado para \(\theta\), entonces
\[Var(\hat{\theta}) \geq \frac{1}{n I(\theta)},\]
donde
\[I(\theta) = E\left[\left(\frac{\partial}{\partial \theta} \ln f(X; \theta)\right)^2\right]\]
es denominada la Información de Fisher, y a la expresión
\[CIRC(\theta)=\frac{1}{n I(\theta)}\]
se le llama Cota Inferior de Cramér-Rao (CICR) para la varianza de cualquier estimador insesgado para el parámetro \(\theta\).
La cota inferior de Cramér-Rao establece que ningún estimador insesgado puede tener una varianza menor que la CICR. En particular, si se encuentra un estimador insesgado cuya varianza coincide con la CICR, entonces este estimador es el mejor estimador insesgado posible para el parámetro \(\theta\), en el sentido de que ningún otro estimador insesgado puede tener una varianza menor. A tales estimadores les llamaremos estimadores insesgados de varianza mínima uniforme, o por brevedad y por sus siglas en inglés, UMVUE (Uniform Minimum Variance Unbiased Estimator). El adjetivo “uniforme” se refiere a que la varianza del estimador es la mínima posible para todo valor del parámetro \(\theta\) en el espacio parametral \(\Theta\).
Definición 4.6 Se dice que un estimador insesgado \(\hat{\theta}\) para un parámetro \(\theta\) es un estimador insesgado de varianza mínima uniforme (UMVUE) si es insesgado y tiene varianza mínima dentro del conjunto de todos los estimadores insesgados para el parámetro \(\theta\).
4.6 Eficiencia
Inicialmente se brinda una definición que resulta al comparar dos estimadores insesgados para el mismo parámetro.
Definición 4.7 Sea \(\hat{\theta}_1\) y \(\hat{\theta}_2\) dos estimadores insesgados para un mismo parámetro \(\theta\). Se dice que \(\hat{\theta}_1\) es relativamente más eficiente que \(\hat{\theta}_2\) si
\[Var(\hat{\theta}_1) \leq Var(\hat{\theta}_2).\]
De esta manera, de entre dos estimadores insesgados para un mismo parámetro se prefiere aquel cuya varianza sea menor, si es que tal comparación puede llevarse acabo. Dado que la varianza de un estimador es una función parametral, es posible que un estimador sea relativamente más eficiente que otro sólo para ciertos valores del parámetro.
En ocasiones hay estimadores insesgados con la mínima varianza posible dada por la cota inferior de Cramér-Rao. Los llamaremos estimadores eficientes. Estos son casos particulares de los UMVUE, aquellos que cumplen la igualdad en la cota inferior de Cramér-Rao.
Definición 4.8 Se dice que un estimador insesgado \(\hat{\theta}\) para un parámetro \(\theta\) es eficiente si su varianza coincide con la cota inferior de Cramér-Rao.
Es decir, el estimador insesgado \(\hat{\theta}\) es eficiente si \(Var(\hat{\theta}) = CIRC(\theta)\) para todo \(\theta \in \Theta\). Teniendo como elemento de comparación la cota inferior de Cramér-Rao, es posible definir la eficiencia de un estimador insesgado como el cociente entre la cota y la varianza del estimador.
Definición 4.9 La eficiencia de un estimador insesgado \(\hat{\theta}\) para un parámetro \(\theta\) es
\[\text{Efi}(\hat{\theta}) = \frac{CIRC(\theta)}{Var(\hat{\theta})}.\]
Observemos que la eficiencia es una función del parámetro \(\theta\), es siempre positiva y está acotada superiormente por 1. Un estimador insesgado es eficiente si su eficiencia es igual a 1 para todo \(\theta \in \Theta\). Además, la cualidad de ser eficiente para un estimador insesgado puede alcanzarse en el límite cuando el tamaño de la muestra tiende a infinito.
Definición 4.10 Sea \(\hat{\theta}_n\) un estimador insesgado basado en una muestra aleatoria de tamaño \(n\) para un parámetro \(\theta\). Se dice que \(\hat{\theta}_n\) es un estimador asintóticamente eficiente para \(\theta\) si
\[\lim_{n \to \infty} \text{Efi}(\hat{\theta}_n) = 1.\]