LAS COMPARACIONES SON ODIOSAS, PERO CON LOS DATOS NIR, NO TENEMOS MÁS REMEDIO…
La sensibilidad de un modelo en ocasiones puede ser determinante. Si trabajamos en una empresa que emplea el NIR en su control de calidad y esta empresa busca la perfección, es muy importante ajustar tu clasificación del modelo en base a que detecte desviaciones pequeñas. Por supuesto con el empleo de la tecnología NIR contamos con dificultades relativas al tipo de sustancia que compone la muestra, y su interacción con esta parte de la radiación electromagnética. Salvando todas estas variables, supongamos:
Tenemos una muestra (producto
final), compuesta por un grupo de ingredientes y queremos saber cuánto podemos
ajustarnos a la desviación de cada ingrediente respecto al producto final
ideal, que denominaremos “MM5”.
Son muchas las combinaciones
posibles, pero por centrar el ejemplo en una, vamos a seleccionar un
ingrediente A.
Trabajo
quimiométrico en SIMCA.
La forma de plantear este desafío
sería haciendo mezclas de mano con el producto, presentando desviaciones para
este ingrediente, que se ajusten a nuestras necesidades de sensibilidad.
Nomenclaturas:
MM5:
muestra control, producto final.
AMM4: muestra
desviada por defecto para el ingrediente A.
AMM6:
muestra desviada por exceso para el ingrediente A.
En SIMCA crearemos una hoja de
trabajo donde tendremos datos espectrales de estos tres tipos de muestras,
muestras que son iguales en composición, excepto para un ingrediente. Seleccionaremos
en las muestras la variable primaria y en las longitudes de onda la variable secundaria.
Para trabajar con este tipo de
datos y de objetivo (en quimiometría es fundamental conocer qué queremos
obtener de los datos iniciales), serán interesantes análisis que trabajen con
estructuras de datos cualitativos destinados al análisis de discriminación.
Como conocemos las muestras pertenecientes a cada clase este será de tipo
dirigido. Probaremos por tanto el PLS-DA y OPL-DA, ya que la variabilidad entre
las clases es baja, y estos tratamientos maximizarán su separación.
Al realizar a nuestros datos cada
uno de estos tratamientos se obtienen los siguientes resultados:
¿Por qué los resultados de la clasificación son diferentes entre tratamientos? Siendo claramente OPLS-DA aquel que obtiene los mejores resultados separando muestras desviadas.
El motivo es como trabajan con
los datos cada uno de estos tratamientos, que se podría sintetizar según Roger et al., 2011, en que el PLS puede
aplicarse sobre variables indicadoras, lo que permite realizar un análisis
discriminante basado en variables latentes (PLS-DA). Otras soluciones como
OPLS-DA implican elegir un número restringido de variables significativas, es
decir en este segundo tratamiento solo se utilizan unas pocas variables siendo
por tanto estos segundos resultados más fáciles de interpretar.
Sin embargo, queda la pregunta ¿es
el OPLS-DA demasiado optimista en el tratamiento de los datos?
Me encantaría abrir un debate a raíz
del tema, por ejemplo: ¿Trabajáis con SIMCA en el tratamiento de vuestros datos?
¿Empleáis el OPLS-DA como tratamiento quimiométrico? ¿Tratáis los datos con
ambos y luego comparáis estadísticos de calidad?
Bibliografía: Roger, J. M., Palagos, B., Bertrand, D., & Fernandez-Ahumada, E. (2011). CovSel: Variable selection for highly multivariate and multi-response calibration. Chemometrics and Intelligent Laboratory Systems, 106(2), 216-223. https://doi.org/10.1016/j.chemolab.2010.10.003
COMPARISONS WE HAVE TO DO WITH NIR DATA.
We have a sample (final product), composed by a
group of ingredients and we want to know how much we can adjust to the
deviation of each ingredient with respect to the ideal final product, named
"MM5".
There are many possible combinations, but to
focus the example on one, we will select ingredient A.
Chemometric work in SIMCA.
The way to approach this challenge would be to
make hand mixtures with the product, presenting deviations for this ingredient,
that fit our sensitivity needs.
Nomenclatures:
MM5: control sample, final product.
AMM4: sample deviated by default for
ingredient A.
AMM6: sample deviated by excess for
ingredient A.
In SIMCA we create a worksheet with the
spectral data of these three kinds of samples, samples that are made by the
same in composition, except for one ingredient. We select the primary variable
in the samples and the secondary variable in the wavelengths.
To work with this type of data and objective
(in chemometrics it is essential to know what we want to EXTRACT from the
initial data), analyses that work with qualitative data for discrimination
analysis will be interesting. as we know the category of each sample, we test
PLS-DA and OPL-DA, since the variability between the classes is low, and these
treatments will maximize their separation.
When applying each of these treatments to our
data, the following results are obtained:
Why are the classification results different
between treatments? OPLS-DA is clearly the one that obtains the best separating
results.
The reason is how each of treatment work with
the data. IT could be summarized according to Roger et al., that PLS can be
applied to indicator variables, which allows for a discriminant analysis based
on latent variables (PLS-DA). Other solutions IS OPLS-DA WHICH involve choosing
a restricted number of significant variables, it means that in this second
treatment only a few variables are used, making these results easier to understand.
However, the question remains: is OPLS-DA too
optimistic in its treatment of the data?
I would love to open a debate on this subject,
for example: Do you work with SIMCA in the treatment of your data? Do you use
OPLS-DA as a chemometric treatment? Do you process data with both (PLS-DA and
OPLS-DA) and then compare its quality statistics?
Bibliography:
Roger, J. M.,
Palagos, B., Bertrand, D., & Fernandez-Ahumada, E. (2011). CovSel: Variable selection for
highly multivariate and multi-response calibration. Chemometrics and
Intelligent Laboratory Systems, 106(2), 216-223. https://doi.org/10.1016/j.chemolab.2010.10.003

Comentarios
Publicar un comentario
Si le ha parecido motivo de debate.
Si quiere hacer alguna consulta sobre el tema.
Si tiene algún comentario, este es su sitio.