Free Essay

Prob Y Estadística: Proceso Tratamiento Agua

In:

Submitted By casillitas
Words 1346
Pages 6
Estadística y diseño de experimentos

En el presente trabajo, se analiza un proceso de tratamiento de agua utilizada en el condensador principal en una planta de generación de energía eléctrica (termoeléctrica). Una planta de tratamiento lateral se ha construido con el fin de disminuir la concentración de sílice en el sistema de enfriamiento, con lo que se reducirá el consumo de agua. Se sospecha que la concentración de sílice, el cual se buscará reducir, se ve influenciada por las variables masa de sulfato ferroso (kg.), nivel de pH del agua, nivel de lodos (mm.), flujo de agua (lts./hr.) y masa de óxido de magnesio (kg.), x1, x2, x3, x4 y x5, respectivamente. Para determinar qué tanto contribuye cada variable a la explicación del comportamiento de la variable de respuesta, se buscará establecer un modelo de regresión lineal múltiple que incluya las variables mencionadas y que muestre la contribución de cada una al nivel de sílice con el propósito de permitir o facilitar su manipulación para lograr la respuesta esperada.

Para determinar el mejor modelo lineal de entre todas las posibles combinaciones entre variables, se estableció primero un modelo que las incluía todas. Del ANOVA de este modelo, se analizó la R2a ya que resulta ser un buen indicador en modelos de más de una variable ya que penaliza la adición de las mismas en caso de ser inútiles, el valor F, los coeficientes de las regresoras y sus valores t y P. La R2a presentó un valor muy bajo de 0.635945343, lo que representa el 63.6% de la cantidad de variación explicada por la regresión. Sin embargo, a partir de la misma, comparamos el valor F proporcionado por el ANOVA vs. el valor F de tablas (en base a los parámetros del modelo). De esto se obtuvo lo siguiente:

F= 16.37219 > F0.05,5,39 = 2.458, por lo cual se rechaza la hipótesis nula Ho: β1 = β2 = β3 = β4 = β5 = 0 y se acepta la hipótesis alternativa, H1: βj ( 0 al menos para una j, la cual se establece que existe una relación causal entre las regresoras y Y. Con el fin de conocer el tipo de relación entre las variables y la respuesta, posteriormente se analizó cada variable con el nivel de sílice. De ellos, se observó que no había una relación lineal o polinomial clara o fácilmente distinguible. Sin embargo, la distribución de puntos de cada regresora indicaba una posible correlación, a excepción de x1 (optamos por analizarla más a fondo en base las observaciones que se mencionan a continuación y no simplemente eliminarla por este detalle). Decidimos conservar un modelo de regresión lo más simple posible, es decir, sin tomar en cuenta factores polinomiales que, de cualquier modo, no se indicaban en las gráficas mencionadas. Se continuó con la valoración de cada variable dentro del modelo de regresión múltiple, de lo cual se obtuvo:

| |Coefficients |t Stat |P-value |
|Intercept |1252.229555 |1.014287131 |0.316697 |
|X Variable 1 |-30.28997056 |-1.260524563 |0.21497 |
|X Variable 2 |305.5412826 |3.47690252 |0.001261 |
|X Variable 3 |-0.28544535 |-0.819447325 |0.417511 |
|X Variable 4 |-0.008658521 |-0.543628575 |0.589791 |
|X Variable 5 |-20.67535717 |-1.373407748 |0.17747 |

De aquí se deduce que la variable x2 es la que más contribuye al modelo ya que presenta un valor P = 0.001261 < 0.05 (α establecida en la prueba, es decir, a un nivel de confianza común de 95%), a diferencia de las demás. Aunado a esto, dicha variable cumplía con la relación del estadístico t:

= |-1.260524563|> 2.0231

con lo cual se rechaza la hipótesis nula H0: β2 = 0. Para los demás no se cumple dicha relación, lo cual indica su poca o nula contribución al modelo.

Como resultado de este análisis, se obtuvo el modelo siguiente:
Y = 1252.229555 - 30.28997056x1 + 305.5412826x2 - 0.28544535x3 - 0.008658521x4 - 20.67535717x5
También desarrollamos los modelos de cada variable individual con la respuesta. Con esto se comprobó la contribución de la variable del nivel de pH, aunque con baja R2. De las demás se observó la misma baja contribución deducida en el modelo de regresión múltiple.

Al no ser éste un modelo muy bueno ya que sólo un parámetro parecía contribuir además del bajo valor de R2a, decidimos hacer nuevas combinaciones de las regresoras e inclusive de la variable de respuesta (transformándola a log10, su recíproco, raíz cuadrada, entre otras, lo cual no mejoró la R2a). Primeramente, hicimos la prueba VIF para reconocer correlación entre las variables regresoras. La prueba arrojó que ninguna presentaba correlación aparente con las demás, por la que no desechamos ninguna del modelo por establecer. Por medio del método “Forward” (hacia delante), establecimos las regresoras que debían ingresar al modelo. En base al valor F de cada variable analizada individualmente con la respuesta, se extrajo la mayor, la cual obviamente correspondió a x2. Se repitió el mismo proceso para las demás pero ya considerando el modelo con la variable x2 incluida y comparando los valores F con una F de entrada = 4 (valor estándar). De dicha prueba finalmente se concluyó que el mejor modelo era aquél que incluía las variables x2, x4 y la interacción x1x5. Dicho modelo presentaba una R2a de 0.643, F= 27.42 (lo suficientemente grande como para rechazar la hipótesis nula) y un P-value de 0.0002, 0.025 y 0.29 respectivamente. Las demás combinaciones de modelos analizadas se descartaron ya que sólo disminuían en su valor de R2a y F y las contribuciones de cada variable se mostraban mínimas.

El nuevo modelo quedaba de la siguiente manera:
Y = 59.80977133 + 333.8947666x2 - 0.020838403x4 - 0.472808928x1x5

Aún cuando la R2a haya aumentado en comparación con la del modelo que incluye todas las variables, la contribución es mínima y, en base al análisis de los coeficientes finalmente se puede deducir que el mejor modelo es efectivamente el mostrado al principio.
Y1 = 1252.229555 - 30.28997056x1 + 305.5412826x2 - 0.28544535x3 - 0.008658521x4 - 20.67535717x5
Y2 = 59.80977133 + 333.8947666x2 - 0.020838403x4 - 0.472808928x1x5

• β0 de cada modelo no se analiza debido a que no proporciona información relevante. • Para la variable x2 se observa que, en el primer modelo, contribuye con 305.5 en un cambio unitario mientras que en el segundo contribuye con 333.9 (fijándose las demás variables en 0). De esto se deduce que el modelo 1 es mejor en cuanto a su variable x2 ya que aumenta menos su respuesta que en el modelo 2. De las demás variables del modelo 1, se observa que todas poseen un signo negativo, además de valores considerables tales como los coeficientes de x1 y x5. Esto, por tanto, contribuye a disminuir el nivel de sílice. En el modelo 2, por el contrario, los demás coeficientes de las variables restantes a la mencionada (x2) contribuyen pobremente a la disminución del nivel de sílice. • Probando los modelos establecidos con los datos proporcionados, se obtiene un menor error utilizando el modelo 1. Por tanto, se corrobora la decisión de quedarnos con el modelo 1.

Análisis Residuales, normal probability, varianza

Al analizar los residuales del modelo de regresión múltiple, se descubrieron varios puntos anómalos entre las observaciones 26 y 30. Debido a que el problema menciona un eventual “desbalance” en el control del proceso, decidimos eliminarlos y hacer el ANOVA con el fin de mejorar la R2a tan pobre que habíamos obtenido analizando todos los datos. Sin embargo, aún eliminándolos, el valor de dicho indicador inclusive disminuía, por lo cual finalmente no eliminamos dichas observaciones.

El modelo, al presentar poca explicación de la variabilidad, sugiera una falta de ajuste de los datos a una tendencia, ya sea lineal o polinomial. Habría que calcular el error puro y el debido a la falta de ajuste. Finalmente se manipularían de manera más extensa las variables con el fin de ajustar la mejor tendencia, incluir más variables o mejores métodos de medición o cerciorarse que se han incluida réplicas verdaderas y no sólo indicaciones o mediciones duplicadas para obtener los datos.
-----------------------
[pic]

Similar Documents