Introducción
Relevancia para la logística y el transporte internacional
La estadística constituye la base fundamental para la toma de decisiones informadas en el sector logístico y del transporte internacional. En un entorno donde se manejan grandes volúmenes de datos sobre rutas, tiempos de entrega, costes, demanda y capacidades, la estadística permite transformar información bruta en conocimiento útil. Los profesionales del sector necesitan herramientas para analizar patrones de consumo, optimizar rutas, predecir demandas futuras y evaluar el rendimiento de proveedores y transportistas.
Contenidos desarrollados
Conceptos básicos
Población y muestra
- Población: conjunto completo de elementos que comparten una característica común que se quiere estudiar. En logística, puede ser el total de envíos realizados por una empresa en un año, todos los contenedores que pasan por un puerto, o la totalidad de vehículos de una flota.
- Muestra: subconjunto representativo de la población que se selecciona para realizar el estudio. Por ejemplo, analizar 500 envíos de los 50.000 realizados mensualmente.
Tipos de muestreo
- Muestreo aleatorio simple: cada elemento tiene la misma probabilidad de ser seleccionado
- Muestreo estratificado: dividir la población en grupos homogéneos (estratos) y seleccionar muestras de cada uno
- Muestreo sistemático: seleccionar elementos a intervalos regulares
- Muestreo por conglomerados: dividir la población en grupos heterogéneos y seleccionar algunos completos
Variables y tipos de variables
- Variables cualitativas: describen características no numéricas
- Nominales: tipo de transporte (terrestre, marítimo, aéreo)
- Ordinales: nivel de satisfacción del cliente (muy bajo, bajo, medio, alto, muy alto)
- Variables cuantitativas: expresan cantidades numéricas
- Discretas: número de contenedores, cantidad de pedidos
- Continuas: peso de la carga, tiempo de entrega, distancia recorrida
Datos y tipos de datos
- Datos primarios: recogidos directamente para el estudio (encuestas a clientes, mediciones de tiempo)
- Datos secundarios: ya existentes y recogidos por otros (estadísticas oficiales de comercio exterior)
- Datos transversales: observaciones en un momento específico del tiempo
- Datos temporales: observaciones a lo largo del tiempo
Estadística unidimensional
Relevancia para la logística y el transporte internacional
El análisis unidimensional permite caracterizar individualmente cada variable relevante en operaciones logísticas. Comprender el comportamiento típico de variables como tiempos de entrega, costes por kilómetro o niveles de inventario es esencial para establecer estándares operativos, detectar anomalías y planificar recursos adecuadamente.
Contenidos desarrollados
Medidas de centralización
Indican los valores típicos o centrales de una distribución de datos.
Media aritmética (x̄)
- Suma de todos los valores dividida entre el número de observaciones
- Ejemplo: tiempo medio de entrega = (2+3+5+4+1)/5 = 3 días
- Sensible a valores extremos (outliers)
Mediana (Me)
- Valor que divide la distribución en dos partes iguales
- Más robusta ante valores extremos que la media
- Útil cuando hay grandes variaciones en los datos
Moda (Mo)
- Valor que aparece con mayor frecuencia
- Especialmente útil para variables cualitativas
- Ejemplo: el medio de transporte más utilizado
Medidas de dispersión
Miden la variabilidad o dispersión de los datos respecto a las medidas de centralización.
Rango
- Diferencia entre el valor máximo y mínimo
- Medida simple pero muy sensible a valores extremos
Varianza (s²)
- Media de los cuadrados de las desviaciones respecto a la media
- Expresa la dispersión en unidades cuadradas
Desviación típica (s)
- Raíz cuadrada de la varianza
- Se expresa en las mismas unidades que los datos originales
- Permite establecer intervalos de normalidad
Coeficiente de variación (CV)
- Cociente entre la desviación típica y la media
- Permite comparar dispersiones entre variables con diferentes unidades
- CV = (s/x̄) × 100
Medidas de simetría
Coeficiente de asimetría
- Mide el grado de simetría de una distribución
- Asimetría positiva: cola más larga hacia la derecha
- Asimetría negativa: cola más larga hacia la izquierda
- Distribución simétrica: coeficiente próximo a cero
Medidas de curtosis
Coeficiente de curtosis
- Mide el grado de apuntamiento de una distribución
- Leptocúrtica: más apuntada que la normal (curtosis > 0)
- Platycúrtica: menos apuntada que la normal (curtosis < 0)
- Mesocúrtica: similar apuntamiento a la normal (curtosis ≈ 0)
Caso 1: empresa de transporte
Planteamiento: Una empresa de transporte quiere analizar los tiempos de entrega de sus conductores para optimizar las rutas y mejorar la planificación.
Datos: Tiempos de entrega (en horas) de 50 rutas: 2.1, 2.3, 1.8, 3.2, 4.1, 2.7, 2.9, 3.5, 2.2, 2.8, …
Análisis estadístico:
- Media: tiempo medio de entrega
- Mediana: valor central para identificar el comportamiento típico
- Desviación típica: variabilidad en los tiempos
- Coeficiente de variación: comparar consistencia entre conductores
- Asimetría: identificar si hay conductores excepcionalmente lentos o rápidos
Interpretación práctica: Los resultados permiten establecer tiempos estándar, identificar conductores que necesitan formación adicional y optimizar la asignación de rutas según la capacidad de cada conductor.
Estadística bidimensional
Relevancia para la logística y el transporte internacional
Las operaciones logísticas raramente dependen de una sola variable. La estadística bidimensional permite analizar relaciones entre dos variables simultáneamente, como la relación entre distancia y coste de transporte, o entre inversión en tecnología y eficiencia operativa. Estas relaciones son fundamentales para la predicción, planificación y optimización de recursos.
Contenidos desarrollados
Asociación de variables cualitativas
Tablas de contingencia
- Organizan datos de dos variables cualitativas en forma de tabla
- Permiten observar patrones de asociación
- Ejemplo: relación entre tipo de transporte y destino geográfico
Prueba de independencia Chi-cuadrado (χ²)
- Contrasta si existe asociación entre dos variables cualitativas
- H₀: las variables son independientes
- H₁: existe asociación entre las variables
Coeficientes de asociación
- Coeficiente de contingencia (C): mide la intensidad de la asociación
- V de Cramér: versión normalizada del coeficiente de contingencia
- Valores entre 0 (independencia) y 1 (asociación perfecta)
Asociación de variables cuantitativas: regresión lineal
Diagrama de dispersión
- Representación gráfica de la relación entre dos variables cuantitativas
- Permite visualizar el tipo y la fuerza de la relación
Coeficiente de correlación de Pearson (r)
- Mide la fuerza y dirección de la relación lineal
- Valores entre -1 (correlación negativa perfecta) y +1 (correlación positiva perfecta)
- r = 0 indica ausencia de relación lineal
Regresión lineal simple
- Modelo: Y = a + bX + ε
- a (ordenada en el origen): valor de Y cuando X = 0
- b (pendiente): cambio en Y por cada unidad de cambio en X
- ε (error): diferencia entre valores observados y predichos
Método de mínimos cuadrados
- Técnica para encontrar la recta que mejor se ajusta a los datos
- Minimiza la suma de los cuadrados de los residuos
Coeficiente de determinación (R²)
- Proporción de la variabilidad de Y explicada por X
- R² = r² en regresión simple
- Valores entre 0 y 1, donde 1 indica ajuste perfecto
Caso 2: relación entre ventas y publicidad
Planteamiento: Una empresa logística quiere analizar si existe relación entre su inversión en publicidad y el volumen de ventas para optimizar su presupuesto de marketing.
Variables:
- X: Inversión mensual en publicidad (miles de euros)
- Y: Volumen de ventas mensual (millones de euros)
Análisis estadístico:
- Diagrama de dispersión: visualizar la relación
- Coeficiente de correlación: medir la fuerza de la relación
- Ecuación de regresión: Y = a + bX
- Coeficiente de determinación: R² para evaluar la bondad del ajuste
- Análisis de residuos: verificar supuestos del modelo
Interpretación práctica:
- Si b > 0: cada euro adicional en publicidad aumenta las ventas
- R² alto indica que la publicidad explica gran parte de la variación en ventas
- La ecuación permite predecir ventas futuras según la inversión publicitaria
Probabilidad e inferencia
Relevancia para la logística y el transporte internacional
La incertidumbre es inherente a las operaciones logísticas. Los retrasos en las entregas, las variaciones en la demanda y los problemas operativos son eventos probabilísticos que requieren herramientas estadísticas para su gestión. La inferencia estadística permite tomar decisiones sobre poblaciones completas basándose en muestras, lo cual es esencial cuando es imposible o muy costoso analizar todos los elementos.
Contenidos desarrollados
Probabilidad y distribuciones de probabilidad
Conceptos básicos de probabilidad
- Experimento aleatorio: proceso cuyo resultado no puede predecirse con certeza
- Espacio muestral (Ω): conjunto de todos los resultados posibles
- Evento: subconjunto del espacio muestral
- Probabilidad: medida numérica de la posibilidad de que ocurra un evento
Propiedades de la probabilidad
- 0 ≤ P(A) ≤ 1 para cualquier evento A
- P(Ω) = 1
- P(∅) = 0
Distribuciones de probabilidad discretas
- Distribución binomial: número de éxitos en n ensayos independientes
- Distribución de Poisson: eventos raros en un intervalo de tiempo
- Ejemplo: número de averías de vehículos por día
Distribuciones de probabilidad continuas
- Distribución uniforme: todos los valores en un intervalo tienen la misma probabilidad
- Distribución exponencial: tiempo entre eventos en un proceso de Poisson
La distribución normal
Características de la distribución normal
- Forma de campana simétrica
- Definida por dos parámetros: media (μ) y desviación típica (σ)
- La media, mediana y moda coinciden
- Regla empírica: 68%-95%-99.7%
Distribución normal estándar (Z)
- Media = 0, desviación típica = 1
- Transformación: Z = (X – μ)/σ
- Permite comparar valores de diferentes distribuciones normales
Aplicaciones en logística
- Tiempos de entrega
- Pesos de productos
- Demanda de productos
Inferencia estadística
Conceptos fundamentales
- Parámetro: característica numérica de la población
- Estadístico: característica numérica de la muestra
- Estimación puntual: valor único que estima un parámetro
- Estimación por intervalo: rango de valores que probablemente contiene el parámetro
Distribuciones muestrales
Teorema central del límite
- La distribución de la media muestral se aproxima a la normal cuando n es grande
- Se cumple independientemente de la forma de la población original
- Error estándar: σx̄ = σ/√n
- Se utiliza cuando σ es desconocida y se estima con s
- Más dispersa que la normal estándar
- Se aproxima a la normal cuando los grados de libertad aumentan
Intervalos de confianza y contrastes de hipótesis individuales
- Para la media: x̄ ± t(α/2,n-1) × (s/√n)
- Para la proporción: p̂ ± z(α/2) × √(p̂(1-p̂)/n)
- Interpretación: el X% de los intervalos construidos contienen el parámetro verdadero
Contrastes de hipótesis
- Hipótesis nula (H₀): afirmación que se contrasta
- Hipótesis alternativa (H₁): afirmación alternativa
- Nivel de significación (α): probabilidad de error tipo I
- p-valor: probabilidad de obtener un resultado tan extremo o más
Test de media
- H₀: μ = μ₀ vs H₁: μ ≠ μ₀ (bilateral)
- Estadístico de prueba: t = (x̄ – μ₀)/(s/√n)
- Ejemplo: contrastar si el tiempo medio de entrega es 3 días
Test de proporciones
- H₀: p = p₀ vs H₁: p ≠ p₀
- Estadístico de prueba: z = (p̂ – p₀)/√(p₀(1-p₀)/n)
- Ejemplo: contrastar si la proporción de entregas a tiempo es 90%
Test de independencia de atributos
- Utiliza la distribución Chi-cuadrado
- Contrasta si dos variables cualitativas son independientes
- Ejemplo: independencia entre tipo de transporte y satisfacción del cliente
ANOVA (Analysis of Variance)
- Compara medias de tres o más grupos
- H₀: μ₁ = μ₂ = … = μk
- Estadístico F = Varianza entre grupos / Varianza dentro de grupos
- Ejemplo: comparar tiempos de entrega entre diferentes transportistas
Contrastes de hipótesis aplicados al modelo de regresión lineal simple y múltiple
Regresión lineal simple: Y = α + βX + ε
Test de significación del modelo
- H₀: β = 0 (no hay relación lineal)
- H₁: β ≠ 0 (existe relación lineal)
- Estadístico t = b/sb, donde sb es el error estándar de b
Test F de significación global
- Contrasta si el modelo es significativo globalmente
- F = (R²/(1-R²)) × ((n-2)/1)
Intervalos de confianza para los parámetros
- Para β: b ± t(α/2,n-2) × sb
- Para α: a ± t(α/2,n-2) × sa
Regresión lineal múltiple: Y = β₀ + β₁X₁ + β₂X₂ + … + βkXk + ε
Test de significación individual
- Para cada βi: H₀: βi = 0 vs H₁: βi ≠ 0
- Estadístico ti = bi/sbi
Test F de significación global
- H₀: β₁ = β₂ = … = βk = 0
- H₁: al menos un βi ≠ 0
- F = (R²/k)/((1-R²)/(n-k-1))
Selección de variables
- Métodos: hacia adelante, hacia atrás, paso a paso
- Criterios: R² ajustado, AIC, BIC
- Evitar multicolinealidad entre variables explicativas
Aplicación práctica en logística
- Predecir costes de transporte basándose en distancia, peso y tipo de mercancía
- Analizar factores que influyen en la satisfacción del cliente
- Optimizar rutas considerando múltiples variables simultáneamente