LAS COMPARACIONES SON ODIOSAS, PERO CON LOS DATOS NIR, NO TENEMOS MÁS REMEDIO…


 La sensibilidad de un modelo en ocasiones puede ser determinante. Si trabajamos en una empresa que emplea el NIR en su control de calidad y esta empresa busca la perfección, es muy importante ajustar tu clasificación del modelo en base a que detecte desviaciones pequeñas. Por supuesto con el empleo de la tecnología NIR contamos con dificultades relativas al tipo de sustancia que compone la muestra, y su interacción con esta parte de la radiación electromagnética. Salvando todas estas variables, supongamos:

Tenemos una muestra (producto final), compuesta por un grupo de ingredientes y queremos saber cuánto podemos ajustarnos a la desviación de cada ingrediente respecto al producto final ideal, que denominaremos “MM5”.

Son muchas las combinaciones posibles, pero por centrar el ejemplo en una, vamos a seleccionar un ingrediente A.

Trabajo quimiométrico en SIMCA.

La forma de plantear este desafío sería haciendo mezclas de mano con el producto, presentando desviaciones para este ingrediente, que se ajusten a nuestras necesidades de sensibilidad.

Nomenclaturas:

MM5: muestra control, producto final.

AMM4: muestra desviada por defecto para el ingrediente A.

AMM6: muestra desviada por exceso para el ingrediente A.

En SIMCA crearemos una hoja de trabajo donde tendremos datos espectrales de estos tres tipos de muestras, muestras que son iguales en composición, excepto para un ingrediente. Seleccionaremos en las muestras la variable primaria y en las longitudes de onda la variable secundaria.

Para trabajar con este tipo de datos y de objetivo (en quimiometría es fundamental conocer qué queremos obtener de los datos iniciales), serán interesantes análisis que trabajen con estructuras de datos cualitativos destinados al análisis de discriminación. Como conocemos las muestras pertenecientes a cada clase este será de tipo dirigido. Probaremos por tanto el PLS-DA y OPL-DA, ya que la variabilidad entre las clases es baja, y estos tratamientos maximizarán su separación.

Al realizar a nuestros datos cada uno de estos tratamientos se obtienen los siguientes resultados:

PLS-DA)

OPLS-DA)

¿Por qué los resultados de la clasificación son diferentes entre tratamientos? Siendo claramente OPLS-DA aquel que obtiene los mejores resultados separando muestras desviadas.

El motivo es como trabajan con los datos cada uno de estos tratamientos, que se podría sintetizar según  Roger et al., 2011, en que el PLS puede aplicarse sobre variables indicadoras, lo que permite realizar un análisis discriminante basado en variables latentes (PLS-DA). Otras soluciones como OPLS-DA implican elegir un número restringido de variables significativas, es decir en este segundo tratamiento solo se utilizan unas pocas variables siendo por tanto estos segundos resultados más fáciles de interpretar.

Sin embargo, queda la pregunta ¿es el OPLS-DA demasiado optimista en el tratamiento de los datos?

Me encantaría abrir un debate a raíz del tema, por ejemplo: ¿Trabajáis con SIMCA en el tratamiento de vuestros datos? ¿Empleáis el OPLS-DA como tratamiento quimiométrico? ¿Tratáis los datos con ambos y luego comparáis estadísticos de calidad?

Bibliografía: Roger, J. M., Palagos, B., Bertrand, D., & Fernandez-Ahumada, E. (2011). CovSel: Variable selection for highly multivariate and multi-response calibration. Chemometrics and Intelligent Laboratory Systems, 106(2), 216-223. https://doi.org/10.1016/j.chemolab.2010.10.003

 ------------------------------------------------------------------------------------------------------

COMPARISONS WE HAVE TO DO WITH NIR DATA.

 The sensitivity of a model can sometimes be decisive. if we work in an enterprise that uses NIR in its quality control and this enterprise seeks perfection, it is very important to adjust your NIR model on detecting small deviations. of course, with the use of NIR technology we have difficulties related to the kind of substance that composes the sample, and its interaction with this part of electromagnetic radiation. leaving aside all these variables, let's suppose:

We have a sample (final product), composed by a group of ingredients and we want to know how much we can adjust to the deviation of each ingredient with respect to the ideal final product, named "MM5".

There are many possible combinations, but to focus the example on one, we will select ingredient A.

Chemometric work in SIMCA.

The way to approach this challenge would be to make hand mixtures with the product, presenting deviations for this ingredient, that fit our sensitivity needs.

Nomenclatures:

MM5: control sample, final product.

AMM4: sample deviated by default for ingredient A.

AMM6: sample deviated by excess for ingredient A.

In SIMCA we create a worksheet with the spectral data of these three kinds of samples, samples that are made by the same in composition, except for one ingredient. We select the primary variable in the samples and the secondary variable in the wavelengths.

To work with this type of data and objective (in chemometrics it is essential to know what we want to EXTRACT from the initial data), analyses that work with qualitative data for discrimination analysis will be interesting. as we know the category of each sample, we test PLS-DA and OPL-DA, since the variability between the classes is low, and these treatments will maximize their separation.

When applying each of these treatments to our data, the following results are obtained:

PLS-DA)

OPLS-DA)

Why are the classification results different between treatments? OPLS-DA is clearly the one that obtains the best separating results.

The reason is how each of treatment work with the data. IT could be summarized according to Roger et al., that PLS can be applied to indicator variables, which allows for a discriminant analysis based on latent variables (PLS-DA). Other solutions IS OPLS-DA WHICH involve choosing a restricted number of significant variables, it means that in this second treatment only a few variables are used, making these results easier to understand.

However, the question remains: is OPLS-DA too optimistic in its treatment of the data?

I would love to open a debate on this subject, for example: Do you work with SIMCA in the treatment of your data? Do you use OPLS-DA as a chemometric treatment? Do you process data with both (PLS-DA and OPLS-DA) and then compare its quality statistics?

 

Bibliography:

Roger, J. M., Palagos, B., Bertrand, D., & Fernandez-Ahumada, E. (2011). CovSel: Variable selection for highly multivariate and multi-response calibration. Chemometrics and Intelligent Laboratory Systems, 106(2), 216-223. https://doi.org/10.1016/j.chemolab.2010.10.003

 

Comentarios

Entradas populares