StatQuest... Es el mejor Si tu no lo crees... ... Entonces tenemos opiniones diferentes!!! Hola, soy Josh Starmer y bienvenidos a StatQuest Hoy vamos a estar hablando acerca de las ideas principales detrás del análisis de componentes principales quiero cubrir esos conceptos en 5 minutos. Si quieres más detalles de los que tienes aquí asegúrate de revisar mi otro video de ACP Digamos que tenemos algunas células normales (psst - si no eres un biólogo imagina que estas pueden ser gente, o autos, o ciudades, etc...) Pueden ser lo que sea Aunque estas se vean iguales, sospechamos que hay diferencias Estas pueden ser un tipo de célula... (o un tipo de persona, o auto, o ciudad, etc...) Estas pueden ser otro tipo de célula... y finalmente, estas pueden ser un tercer tipo de célula... Desafortunadamente, no podemos observar las diferencias desde afuera así que secuenciamos el ARN mensajero en cada célula para identificar cuales genes están activos esto nos dice lo que la célula está haciendo (Psst... si fueran gente, podríamos medir la altura, presión sanguinea, nivel de lectura, etc...) Está bien, aquí están los datos... cada columna muestra cuanto de cada gen es transcrito en cada célula Por ahora, imaginémonos que solo hay dos células Si solo tenemos dos células entonces podríamos graficar las medidas por cada gen este gen ... gen uno esta altamente transcrito en la célula uno y bajamente transcrito en la célula dos y este gen ... gen nueve esta bajamente transcrito en la célula 1 y altamente transcrito en la célula 2 En general, la célula uno y célula dos tienen una correlación inversa Esto significa que probablemente sean dos tipos de células ya que están usando genes distintos Ahora imaginemos que hay tres células Ya hemos visto como podemos graficar las dos primeras células para ver que tan cercana es su relación ahora tambien podemos comparar la célula uno con la célula tres Célula uno y célula 3 están correlacionadas positivamente sugiriendo que están haciendo cosas similares. Finalmente, tambien podemos comparar la célula 1 con la célula 3 La correlación negativa sugiere que la célula 2 está haciendo algo diferente que la célula 3 Alternativamente, podríamos tratar de graficar las tres células de una sola vez en un gráfico tridimensional La célula 1 puede ser el eje vertical la célula 2 puede ser el eje horizontal y la célula tres puede ser la profundidad. Entonces podríamos rotar este gráfico para ver como las células se relacionan entre si. ¿Pero que hacemos cuando tenemos 4 o más células? Dibujar toneladas y toneladas de gráficos de dos células y tratar de darle sentido a todos. ¿O dibujar algún gráfico loco que tenga un eje para cada célula y que haga nuestro cerebro explotar? No... ambas de esas opciones son sencillamente tontas En vez de eso, dibujamos un Análisis de Componentes Principales O gráfico de ACP Un gráfico de ACP converge las correlaciones o la falta de ellas entre las células en un gráfico de 2 dimensiones. Las células que tienen correlaciones elevadas se agrupan juntas. Estas células agrupadas están altamente correlacionadas entre sí estas también y estas también. Para hacer las agrupaciones facil de ver podemos colorearlas Una vez que hemos identificado los grupos podemos regresar a las células originales Y ver que representan tres tipos diferentes de células haciendo tres tipos de cosas diferentes con sus genes. Aquí hay una última idea principal de como interpretar gráficas de ACP Los ejes están ordenados en orden de importancia Diferencias entre el primer eje de componente principal (PC1) Son más importantes que las diferencias a lo largo del segundo eje del componente principal (PC2) Si el gráfico luce como este Donde la distancia entre estos dos grupos Es casi la misma que la distancia entre estos dos grupos Entonces estos dos grupos son más diferentes el uno del otro Que estos dos grupos. Antes de irnos Debes de saber que el ACP es solo una forma de darle sentido a este tipo de datos. Hay muchos otros métodos que son variaciones de este tema de reducción de dimensiones. Estos métodos incluyen "mapas de calor" gráficos "t-SNE" y gráficos de "escalamiento multidimensional" La buena noticia es que tengo "StatQuest" para cada uno de esllos así que puedes revisarlos si quieres aprender más Nota: Si el concepto de "reducción de dimensiones" te esta volviendo loco revisa el StatQuest original de PCA Lo desarrollo fácil y lento, para que sea explicado claramente ¡Viva! Hemos llegado al final de otro emocionante StatQuest Si te gustó el StatQuest y quieres ver más de ellos, por favor suscríbete si tienes algunas ideas de StatQuest adicionales... bueno... Ponlas en los comentarios abajo Hasta una nueva oportunidad.