Análisis de componentes principales potencia bi
Los datos proceden de la Oficina del Censo de EE.UU. y describen los cambios en la población de 51 estados entre 2000 y 2001. El conjunto de datos inicial se ha transformado en tasas por 1000 habitantes, y los datos de 2001 sirven de base para el análisis. Este conjunto de datos también se utiliza en nuestro tutorial.
Los límites del Análisis de Componentes Principales provienen del hecho de que es un método de proyección, y a veces la visualización puede llevar a interpretaciones falsas. No obstante, existen algunos trucos para evitar estos escollos.
También es importante tener en cuenta que el ACP es una herramienta estadística exploratoria y que, por lo general, no permite probar hipótesis. La ventaja de este aspecto es que el ACP puede ejecutarse varias veces eliminando o añadiendo observaciones o variables en cada ejecución, siempre que esas manipulaciones estén justificadas en las interpretaciones.
El primer resultado que hay que observar es la matriz de correlaciones. Podemos ver enseguida que las tasas de personas menores y mayores de 65 años están correlacionadas negativamente (r = -1). Cualquiera de las dos variables podría haberse eliminado sin afectar a la calidad de los resultados. También podemos ver que la Migración Nacional Neta tiene una baja correlación con las demás variables, incluida la Migración Internacional Neta. Esto significa que los nacionales y los no nacionales de EE.UU. pueden trasladarse a un estado por distintos motivos.
Análisis de componentes principales en matlab paso a paso
El análisis de componentes principales (PCA) es una técnica estadística multivariante clásica, una de las más útiles para la selección de características, la reducción dimensional y la visualización. Usando PCA, muchas variables de sus datos pueden ser reducidas a unos pocos componentes. El éxito del PCA radica en su capacidad para captar la estructura subyacente más significativa de los datos y, al mismo tiempo, elimina el ruido o las redundancias triviales de los datos. Al extraer la máxima varianza de los datos y eliminar la correlación al mismo tiempo, PCA es capaz de extraer la información que es invariable e insensible a la variación dentro de cada clase de datos.
Este tutorial único de PCA le dará una introducción muy suave a la extracción de características y a la reducción dimensional. En la extracción de características, le ayudará a seleccionar ciertas características que contengan la mayor parte de la información de los datos. En la reducción dimensional, el conjunto de datos original se transforma en un nuevo conjunto de datos, de manera que el número de variables en el nuevo conjunto de datos se reduce hasta ser mucho menor que el número de variables en el conjunto de datos original. Cuando reducimos el número de dimensiones, se simplifica el proceso para encontrar el patrón de asociación y probablemente se pueda visualizar el patrón. Al leer y hacer la práctica de los ejemplos numéricos de este tutorial hasta el final, al menos podrá estar listo para leer otros libros de PCA más avanzados.
Plantilla de Excel para el análisis de componentes principales
Los datos proceden de la Oficina del Censo de EE.UU. y describen los cambios en la población de 51 estados entre 2000 y 2001. El conjunto de datos inicial se ha transformado en tasas por 1000 habitantes, y los datos de 2001 sirven de base para el análisis. Este conjunto de datos también se utiliza en nuestro tutorial.
Los límites del Análisis de Componentes Principales provienen del hecho de que es un método de proyección, y a veces la visualización puede llevar a interpretaciones falsas. No obstante, existen algunos trucos para evitar estos escollos.
También es importante tener en cuenta que el ACP es una herramienta estadística exploratoria y que, por lo general, no permite probar hipótesis. La ventaja de este aspecto es que el ACP puede ejecutarse varias veces eliminando o añadiendo observaciones o variables en cada ejecución, siempre que esas manipulaciones estén justificadas en las interpretaciones.
El primer resultado que hay que observar es la matriz de correlaciones. Podemos ver enseguida que las tasas de personas menores y mayores de 65 años están correlacionadas negativamente (r = -1). Cualquiera de las dos variables podría haberse eliminado sin afectar a la calidad de los resultados. También podemos ver que la Migración Nacional Neta tiene una baja correlación con las demás variables, incluida la Migración Internacional Neta. Esto significa que los nacionales y los no nacionales de EE.UU. pueden trasladarse a un estado por distintos motivos.
Regresión de componentes principales excel
En la cinta de XLMiner, en la pestaña Aplicar su modelo, seleccione Ayuda – Ejemplos, luego seleccione Pronóstico/Ejemplos de minería de datos, y abra el archivo de ejemplo Utilities.xlsx. Este conjunto de datos de ejemplo proporciona datos sobre 22 empresas de servicios públicos en los Estados Unidos.
En la lista Variables en los datos de entrada, seleccione las variables x1 a x8, luego haga clic en el botón > para moverlas a la lista Variables seleccionadas, y haga clic en Siguiente para abrir el diálogo Análisis de componentes principales – Paso 2 de 3.
XLMiner proporciona dos rutinas para especificar el número de componentes principales: Componentes #fijos y Componentes #más pequeños explicando. Utilice el método de #componentes fijos para especificar un número fijo de componentes o variables a incluir en el modelo reducido. El método de explicación de #componentes más pequeños permite al usuario especificar un porcentaje de la varianza. Cuando se selecciona este método, XLMiner calcula el número mínimo de componentes principales necesarios para explicar ese porcentaje de la varianza.
XLMiner proporciona dos métodos para calcular los componentes principales: utilizando la covarianza, o la matriz de correlación. Cuando se utiliza el método de la matriz de correlación, los datos se normalizan primero antes de aplicar el método (es decir, el conjunto de datos se normaliza dividiendo cada variable por su desviación estándar). La normalización da a todas las variables la misma importancia en términos de variabilidad. Si se selecciona el método de la covarianza, primero hay que normalizar el conjunto de datos.