1 Estimación Puntual

Nota: El contenido de esta sección es una adaptación al formato Quarto del capítulo 2 sección 1 del libro Introducción a la Estadística Inferencial de Luis Rincón (2019).

Sea \(X\) una variable aleatoria de interés en un experimento aleatorio, y supongamos que se ha supuesto que \(X\) tiene una función de densidad o de probabilidad conocida \(f(x; \theta)\), que no está completamente especificada, pues depende de un parámetro (o parámetros) desconocido denotado aquí por la letra \(\theta\).

El problema que estudiaremos es el de estimar este parámetro, teniendo como información una serie de observaciones de la variable aleatoria. El problema de estimación puntual consiste en encontrar una función de las observaciones, cuyo valor pueda usarse para estimar el parámetro desconocido.

1.1 Introducción

Sea \(X\) una variable aleatoria con función de densidad o de probabilidad conocida \(f(x; \theta)\), que no está completamente especificada, pero dependiente de un parámetro desconocido \(\theta\). De esta manera, se tiene toda una familia de distribuciones de probabilidad, cada una de las cuales corresponde a un valor diferente del parámetro \(\theta\). Denotaremos por \(\Theta\) al conjunto de todos los valores posibles que puede tomar este parámetro y se le denominará espacio parametral.

Definición 1.1 Al conjunto de todos los posibles valores de un parámetro de una distribución de probabilidad se le llama espacio parametral y se le denota por la letra \(\Theta\).

El parámetro \(\theta\) puede ser una cantidad unidimensional, es decir, un solo parámetro, o bien un vector de dos o más parámetros \(\theta = (\theta_1, \theta_2, \dots)\).

Tenemos así la colección o familia parametral

\[\{f(x; \theta)| \theta \in \Theta\},\]

de funciones de densidad o de probabilidad, en donde la letra \(\theta\) es el nombre genérico que utilizaremos para denotar a un posible parámetro. Veamos algunos ejemplos:

Para la distribución \(\text{Ber}(\theta)\), el parámetro \(\theta\) toma valores en el espacio parametral \(\Theta =(0,1)\).
Para la distribución \(\text{bin}(k,p)\) el parámetro \(\theta\) es el vector de parámetros \((k,p)\) y el espacio parametral es el producto cartesiano \(\Theta = \{1,2, \dots \}\times (0,1)\).
Para la distribución \(N(\mu, \sigma^2)\), el parámetro \(\theta\) es el vector de parámetros \((\mu, \sigma^2)\) y el espacio parametral es el conjunto \(\Theta = (-\infty, \infty) \times (0, \infty)\), correspondiente a la mitad superior del plano cartesiano.

Planteamiento del problema

Supongamos ahora que \(x_1, \dots, x_n\) son observaciones independientes que se han obtenido de la variable aleatoria de interés. Estos valores observados pueden dar algún indicio del valor desconocido del parámetro \(\theta\). El problema que se plantea es el siguiente: ¿cómo podemos usar estas observaciones para estimar el parámetro \(\theta\) para que de esta manera la función de densidad o de probabilidad \(f(x; \theta)\) quede completamente especificada?

Ilustraremos la situación con algunos ejemplos dentro de un contexto práctico.

Ejemplo 1.1 Se desea conocer la calidad de un lote de 1,000 artículos. Dada la imposibilidad o no conveniencia de someter a prueba a todos ellos, se escogen 20 artículos al azar obteniéndose los siguientes resultados.

\[\begin{equation} \begin{array}{|c|c|c|c|} \hline x_1 = 0 & x_6 = 1 & x_{11} = 1 & x_{16} = 1 \\ \hline x_2 = 1 & x_7 = 0 & x_{12} = 1 & x_{17} = 1 \\ \hline x_3 = 1 & x_8 = 1 & x_{13} = 0 & x_{18} = 1 \\ \hline x_4 = 0 & x_9 = 0 & x_{14} = 1 & x_{19} = 1 \\ \hline x_5 = 1 & x_{10} = 1 & x_{15} = 1 & x_{20} = 0 \\ \hline \end{array} \end{equation}\]

El valor 0 indica que el artículo no pasó el control de calidad y el valor 1 indica que el artículo pasó el control de calidad. Supongamos que \(X\) es la variable que indica si un artículo escogido al azar de la población completa pasa, o no pasa, el control de calidad. Entonces es razonable suponer que \(X\) tiene una distribución \(Ber(\theta)\), en donde no conocemos el valor del parámetro \(\theta\). ¿Cómo podemos estimar el valor de \(\theta\) con base en los datos de la muestra?

Al especificar por completo a la distribución Bernoulli en este problema, podemos tener una mejor idea de la cantidad de artículos defectuosos en el lote completo.

Ejemplo 1.2 El tiempo en minutos que un conjunto de 10 personas, escogidas al azar, invierte en trasladarse de la casa al lugar de trabajo, o a la escuela, se muestra en siguiente colección de números.

\[\begin{equation} \begin{array}{cc} \hline x_1 = 100 & x_6 = 60 \\ x_2 = 25 & x_7 = 75 \\ x_3 = 135 & x_8 = 40 \\ x_4 = 120 & x_9 = 35 \\ x_5 = 25 & x_{10} = 130 \\ \hline \end{array} \end{equation}\]

Supongamos que tal variable puede modelarse mediante la distribución \(exp(\theta)\), pero no conocemos el valor de \(\theta\). ¿Cómo podemos estimar el valor de \(\theta\) con base en las observaciones obtenidas? Si se logra especificar completamente a esta distribución exponencial, podemos estimar la cantidad de personas que para su traslado requieren un tiempo dentro de un rango de valores especificado.

En el tratamiento que seguiremos no vamos a considerar observaciones particulares \(x_1,\dots, x_n\), sino observaciones aleatorias. Escribiremos entonces a éstas como la colección de variables aleatorias \(X_1, \dots , X_n\), e impondremos dos condiciones fuertes sobre ellas: independencia e idéntica distribución. A esta colección se le llama muestra aleatoria, lo que se abrevia usando las letras iniciales m.a.

Definición 1.2 Una muestra aleatoria es una colección de variables aleatorias \(X_1, \dots , X_n\) que son independientes e idénticamente distribuidas, es decir, todas ellas tienen la misma función de densidad o de probabilidad \(f(x; \theta)\).

Sobre la independencia, tenemos que un valor observado para una de las variables no influye o afecta la distribución de probabilidad de cualquier otra variable, siendo esta distribución la misma para obtener cada una de las observaciones.

En particular, la primera observación \(x_1\) puede ser un valor de \(X_1\), la segunda observación \(x_2\) puede ser un valor de \(X_2\), etcétera. Así, las variables aleatorias \(X_1, \dots , X_n\) representan \(n\) observaciones al azar e independientes de la variable aleatoria en estudio. Al número entero \(n\geq 1\) se le llama tamaño de la muestra aleatoria y, a menos que se especifique lo contrario, supondremos que este entero es conocido.

Los estimadores que buscamos serán funciones de una muestra aleatoria y a tales funciones les llamaremos estadísticas.

Definición 1.3 Una estadística es una función de una muestra aleatoria que no depende de parámetros desconocidos.

Denotaremos por \(T\), o más explícitamente por \(T(X_1, \dots, X_n)\), a una de estas funciones de la muestra aleatoria. En nuestro estudio, consideraremos que esta función es una variable aleatoria y que tiene como un posible valor el número \(T(x_1, \dots, x_n)\). Nos interesará conocer las características y la distribución de probabilidad de estas variables aleatorias, aunque sólo en algunos pocos casos podremos determinar completamente la distribución de una estadística.

Veremos a continuación algunos ejemplos de estadísticas. Algunas de ellas tienen nombre y notación particular por su uso frecuente.

Ejemplo 1.3 A la estadística denotada por \(\overline{X}\) y que se define a continuación se le llama media muestral. Esta variable aleatoria es el promedio aritmético de los elementos de la muestra aleatoria, es decir,

\[\overline{X} = \frac{1}{n} \sum_{i=1}^{n}X_i.\]

Si \(x_1, \dots, x_n\) son los valores particulares de las variables de la muestra aleatoria, entonces la media muestral es el número \(\overline{x}\) definido antes,

\[\overline{x} = \frac{1}{n} \sum_{i=1}^{n}x_i.\]

Obsérvese el uso de mayúsculas y minúsculas. La estadística \(\overline{X}\) es una variable aleatoria, mientras que \(\overline{x}\), su valor particular, es un número real.

Ejemplo 1.4 A la estadística denotada por \(S^2\) y que se define a continuación se le llama varianza muestral. Esta variable aleatoria es la varianza de los elementos de la muestra aleatoria, es decir,

\[S^2 = \frac{1}{n-1} \sum_{i=1}^{n}(X_i - \overline{X})^2.\]

Obsérvese que en el denominador aparece \(n-1\) en lugar de \(n\). Si \(x_1, \dots, x_n\) son los valores particulares de las variables de la muestra aleatoria, entonces la varianza muestral es el número \(s^2\) definido antes,

\[s^2 = \frac{1}{n-1} \sum_{i=1}^{n}(x_i - \overline{x})^2.\]

Ejemplo 1.5 Sea \(k\) un entero tal que \(1 \leq k \leq n\). La \(k\)-ésima estadística de orden de una muestra aleatoria de tamaño \(n\) es una variable aleatoria definida de la siguiente manera

\[X_{(k)} = \text{k-ésimo mín }\{X_1, \dots X_n\} .\]

Esta variable aleatoria es el \(k\)-ésimo valor más pequeño de la muestra aleatoria, es decir, si \(X_{(1)} \leq X_{(2)} \leq \dots \leq X_{(n)}\) son los valores de la muestra aleatoria ordenados de menor a mayor, entonces \(X_{(k)}\) es el valor que ocupa la posición \(k\) en este ordenamiento. En particular, \(X_{(1)}\) es la estadística de orden mínima y \(X_{(n)}\) es la estadística de orden máxima.

Ejemplo 1.6 Sea \(k\geq 1\) un entero. La estadística denotada por \(M_k\) y que se define a continuación se llama \(k\)-ésimo momento muestral. Esta variable aleatoria es el \(k\)-ésimo momento de los elementos de la muestra aleatoria, es decir,

\[M_k = \frac{1}{n} \sum_{i=1}^{n}X_i^k.\]

Se trata del promedio aritmético de las \(k\)-ésimas potencias de los elementos de la muestra aleatoria. Cuando \(k=1\), el primer momento muestral coincide con la media muestral.

Cuando alguna estadística se proponga o se construya con el objetivo de servir como estimador para un parámetro desconocido \(\theta\) se le denotará como \(\hat{\theta}\) y se le llamará estimador.

Definición 1.4 Un estimador puntual para un parámetro desconocido \(\theta\) es una estadística denotada por \(\hat{\theta}\) que se propone para estimar el parámetro.

Si \(x_1, \dots, x_n\) son los valores particulares de la muestra aleatoria, entonces el número \(\hat{\theta}(x_1, \dots, x_n)\) es una estimación puntual del parámetro \(\theta\), mientras que la variable aleatoria \(\hat{\theta}(X_1, \dots, X_n)\) es un estimador para \(\theta\). Si se omiten los argumentos, ambos objetos se escribirá simplemente \(\hat{\theta}\); el contexto y la forma de tratar a \(\hat{\theta}\) determinarán si nos referimos a la estimación puntual o al estimador.