Ciencia de redes · Guía conceptual

Glosario de redes complejas

Q: ¿Por qué no basta con calcular centralidades?

Cada centralidad responde una pregunta distinta y puede estar dominada por sesgos de medición, actividad o tamaño. En un análisis riguroso se interpreta junto con el objetivo, la calidad del dato, modelos nulos y sensibilidad.

Q: ¿Qué agrega Leiden respecto de Louvain?

Leiden corrige problemas de conectividad interna que pueden aparecer en Louvain, pero la interpretación sigue dependiendo de revisar estabilidad entre semillas, pesos y parámetro de resolución.

Definiciones operativas para estudiar sistemas relacionales: desde teoría de grafos y métricas estructurales hasta comunidades, procesos dinámicos, inferencia y Graph ML.

Teoría de grafos Python · NetworkX Recursos interactivos Lecturas

Cómo usar esta guía

Conceptos para razonar con redes

Cada término conecta definición formal, intuición operativa y consecuencias metodológicas. La guía está pensada para pasar de un concepto a la clase, laboratorio, lectura o recurso donde se trabaja con datos, sin separar la métrica de la pregunta sustantiva que la vuelve interpretable.

Conceptos fundamentales

Fundamentos

Red compleja

Una red compleja representa un sistema mediante entidades y relaciones. Su valor analítico aparece cuando la estructura de conexión no es trivial: heterogeneidad de grados, clustering, comunidades, caminos cortos, dependencia entre observaciones y dinámica sobre la topología.

Clase 1 Lab 1 Literatura U1

Representación

Nodos y aristas

Los nodos son las unidades del sistema; las aristas son las relaciones observadas o inferidas entre ellas. La decisión crítica no es técnica sino conceptual: qué cuenta como entidad, qué cuenta como relación, con qué dirección, peso, ventana temporal y nivel de agregación.

Unidad 1 NetworkX

Métricas

Grado y fuerza

El grado cuenta cuántas conexiones tiene un nodo. En redes ponderadas, la fuerza suma los pesos de esas conexiones. Ambas métricas son interpretables y útiles como diagnóstico inicial, pero pueden ocultar redundancia, sesgo por actividad o diferencias relevantes de posición estructural.

Clase 2 Lab 2

Topología

Centralidad

Centralidad no significa una sola cosa. Degree centrality mide actividad local; betweenness mide intermediación en caminos; closeness captura cercanía global; eigenvector y PageRank ponderan la importancia de los vecinos. La métrica correcta depende de la pregunta y del proceso que se modela.

Clase 3 Lab 3

Topología

Clustering y transitividad

El clustering mide hasta qué punto los vecinos de un nodo también están conectados entre sí. La transitividad resume ese patrón a escala global. En redes sociales suele interpretarse como cierre triádico; en datos proyectados puede aparecer artificialmente por nodos de alta actividad.

Clase 3 Unidad 4

Modelos

Mundo pequeño

Una red de mundo pequeño combina caminos promedio cortos con alto clustering. El modelo Watts-Strogatz muestra cómo pocos enlaces de largo alcance pueden reducir distancias sin destruir completamente la estructura local, un mecanismo clave para difusión y búsqueda en redes.

Clase 4 Literatura U4

Modelos

Red libre de escala y preferential attachment

Las redes libres de escala presentan distribuciones de grado con cola pesada: pocos nodos concentran muchas conexiones y muchos nodos tienen baja conectividad. Preferential attachment es un mecanismo generativo donde los nodos con más enlaces tienden a recibir nuevos enlaces con mayor probabilidad.

Unidad 4 Barabási-Albert

Estructura

Homofilia y assortativity

La homofilia describe la tendencia de nodos similares a conectarse. La assortativity cuantifica mezcla por atributos o por grado. Ambos conceptos ayudan a separar patrones sustantivos de sesgos de observación y son críticos al interpretar comunidades, desigualdad y segmentación.

Clase 5 Lab 5

Topología

Laplaciano y análisis espectral

El Laplaciano de un grafo conecta estructura, difusión y particionamiento. Sus eigenvalores entregan información sobre conectividad, cortes, estabilidad y dinámica. Es una herramienta conceptual clave para entender clustering espectral, procesos de difusión y algunos fundamentos de Graph ML.

Clase 3 Clase 6

Recurso interactivo

Red bipartita

Una red bipartita conecta dos tipos de nodos, como empresas y organismos, autores y papers, o usuarios y productos. Es una representación natural para sistemas de afiliación. Proyectarla a una sola capa puede ser útil, pero también infla enlaces y clustering si no se controla la actividad.

Herramienta bipartitas Clase 2 Lab 2

Notebook complementario

Proyección bipartita

Una proyección bipartita transforma una red de dos modos en una red de un solo tipo de nodo, conectando entidades que comparten vecinos del otro modo. Es útil para visualizar e inferir relaciones indirectas, pero debe ponderarse y validarse porque puede crear enlaces espurios por actividad alta.

Clase 2 Notebook U2 Lecturas U2

Inferencia

Modelos nulos

Un modelo nulo define qué estructura esperaríamos por azar bajo restricciones específicas, por ejemplo preservando tamaño, densidad o secuencia de grados. Sin modelos nulos, muchas conclusiones sobre clustering, centralidad o comunidades pueden ser solo artefactos de la distribución de actividad.

Clase 4 Lab 4 Lecturas U4

Notebook complementario

Jaccard centrado

El Jaccard centrado compara la similitud observada entre dos vectores binarios contra la similitud esperada bajo independencia o bajo un modelo nulo. En redes de co-ocurrencia ayuda a distinguir asociaciones sustantivas de coincidencias inducidas por nodos muy activos.

Notebook U4 Chung · Lyra

Recurso interactivo

Comunidades y modularidad

Una comunidad es un conjunto de nodos más densamente conectado internamente que con el resto de la red. La modularidad formaliza esa comparación contra un baseline. Algoritmos como Louvain y Leiden son útiles, pero requieren revisar resolución, estabilidad y significado sustantivo de los grupos.

Herramienta comunidades Clase 5 Lab 5

Notebook complementario

Louvain, Leiden y resolución

Louvain y Leiden son heurísticos para optimizar particiones comunitarias. Leiden mejora garantías de conectividad interna, pero ambos requieren revisar semillas, pesos y el parámetro de resolución, que controla la escala de comunidades detectadas.

Herramienta comunidades Notebook U5 Blondel · Traag

Mesoestructura

Core-periphery y k-core

Core-periphery describe redes con un núcleo densamente conectado y una periferia menos integrada. k-core identifica subgrafos donde cada nodo mantiene al menos k conexiones internas. Ambos enfoques ayudan a distinguir nodos estructuralmente robustos de nodos simplemente activos.

Unidad 5 Literatura U5

Recurso interactivo

Difusión y contagio en redes

Los procesos de difusión conectan estructura y dinámica. En modelos SIR/SIS, la probabilidad de propagación depende de contactos, recuperación, posición en la red y heterogeneidad de grados. El nodo más central para informar no siempre es el más importante para contener un contagio.

Herramienta procesos Clase 6 Lab 6

Dinámica

Red temporal

Una red temporal conserva cuándo ocurren las interacciones. Es distinta de una red agregada, que colapsa todos los contactos en una sola estructura. Para difusión, riesgo, recomendación o fraude, el orden de los enlaces puede cambiar completamente qué caminos son posibles.

Clase 6 Unidad 6

Evaluación

Inferencia en redes

Los datos de red no son independientes: las observaciones comparten vecinos, comunidades, historia y mecanismos de formación. Por eso la evaluación debe cuidar leakage, splits temporales o estructurales, modelos nulos y reportes explícitos de límites, sesgos y supuestos.

Clase 7 Lab 7

Graph ML

Link prediction

Link prediction estima qué enlaces podrían aparecer, faltar o ser relevantes. Puede usar heurísticas estructurales, embeddings o modelos supervisados. Su principal riesgo metodológico es el leakage: entrenar con información futura o con particiones que destruyen la dependencia temporal de la red.

Unidad 7 Lecturas U7

Graph ML

Heterofilia

La heterofilia aparece cuando nodos conectados tienden a tener etiquetas o atributos distintos. Rompe el supuesto de suavidad local que muchos GNN explotan. En esos casos, agregar vecinos sin criterio puede degradar desempeño y conviene usar arquitecturas, features o splits diseñados para esa estructura.

Clase 8 Literatura U8

Graph ML

Graph Machine Learning

Graph ML usa la estructura relacional como señal predictiva. Incluye embeddings de nodos, clasificación de nodos, predicción de enlaces y Graph Neural Networks. No siempre mejora sobre features de red bien construidas; conviene usarlo cuando la dependencia estructural es parte real del fenómeno.

Clase 8 Lab 8 Lecturas U8

Graph ML

Oversmoothing

Oversmoothing es un problema de algunas GNN profundas: al propagar mensajes muchas veces, las representaciones de nodos distintos se vuelven demasiado parecidas. El resultado puede ser menor capacidad discriminativa, especialmente en grafos heterofílicos o con señales locales débiles.

Clase 8 Lab 8

Graph ML

Knowledge graph

Un knowledge graph organiza entidades y relaciones semánticas, a menudo con múltiples tipos de nodos y enlaces. Se usa en búsqueda, recomendación, integración de datos y razonamiento. Su análisis combina modelamiento relacional, embeddings, reglas de negocio y evaluación cuidadosa de enlaces faltantes.

Clase 8 Unidad 8

Preguntas frecuentes

¿Qué diferencia hay entre teoría de grafos y ciencia de redes?

La teoría de grafos provee el lenguaje matemático para describir nodos, aristas, caminos, conectividad y estructuras. La ciencia de redes usa ese lenguaje para estudiar sistemas empíricos, sus mecanismos de formación, sus patrones estadísticos y los procesos que ocurren sobre la red.

¿Por qué no basta con calcular centralidades?

Porque cada centralidad responde una pregunta distinta y puede estar dominada por sesgos de medición, actividad o tamaño. En un análisis serio, las centralidades se interpretan junto con el objetivo del problema, la calidad del dato, modelos nulos y análisis de sensibilidad.

¿Cuándo conviene usar Graph Neural Networks?

Conviene considerarlas cuando la dependencia entre nodos es predictiva, hay suficiente señal relacional y la evaluación evita leakage. Para muchos problemas aplicados, un feature store con métricas de red, buenos splits y modelos tabulares puede ser un baseline más transparente y competitivo.

¿Qué es un modelo nulo en redes y por qué importa?

Es un baseline estadístico que define qué estructura esperaríamos bajo ciertas restricciones. Importa porque permite distinguir patrones reales de artefactos producidos por tamaño, densidad, secuencia de grados, actividad de usuarios o mecanismos de muestreo.

¿Qué diferencia hay entre una red bipartita y una proyección?

La red bipartita conserva dos tipos de nodos y sus relaciones originales. La proyección transforma esa información en una red de un solo tipo de nodo. La proyección puede facilitar análisis, pero también puede inflar enlaces, clustering y centralidades si no se pondera o valida correctamente.

¿Cuándo usar un notebook complementario?

Conviene usarlo cuando el laboratorio principal deja una pregunta metodológica abierta: proyecciones bipartitas, modelos nulos o estabilidad de comunidades. No reemplaza la clase teórica ni el lab; agrega práctica focalizada para entender mejor supuestos, sensibilidad y límites del método.

¿Por qué las proyecciones bipartitas necesitan controles?

Porque dos nodos pueden quedar conectados solo por compartir vecinos muy activos, no porque exista una relación sustantiva fuerte entre ellos. Por eso se revisan ponderaciones, distribuciones de actividad, modelos nulos y, cuando corresponde, medidas de similitud centradas.

¿Por qué modularidad no es sinónimo de comunidades verdaderas?

Modularidad compara una partición contra un modelo nulo específico. Puede tener límites de resolución, múltiples óptimos parecidos y sensibilidad a pesos o semillas. Por eso una partición debe evaluarse por estabilidad, interpretación sustantiva y consistencia con la pregunta de investigación.

¿Qué agrega Leiden respecto de Louvain?

Leiden mantiene la lógica práctica de optimizar modularidad o funciones relacionadas, pero corrige problemas de conectividad interna que pueden aparecer en Louvain. Aun así, la interpretación requiere revisar estabilidad entre semillas, pesos y resolución.

¿Qué mide el Jaccard centrado?

Mide exceso o déficit de similitud respecto de una expectativa basal. En lugar de tomar la coincidencia observada como evidencia directa, descuenta la similitud que se esperaría por actividad marginal o por las restricciones del modelo nulo elegido.

¿Por qué los splits aleatorios pueden ser problemáticos en redes?

Porque los nodos y enlaces no son observaciones independientes. Un split aleatorio puede filtrar información del futuro o de vecinos cercanos hacia el entrenamiento. En redes, la validación debe respetar temporalidad, componentes, tareas de predicción y posibles mecanismos de leakage.

¿Cuál es la diferencia entre embeddings de nodos y GNN?

Los embeddings aprenden representaciones vectoriales de nodos a partir de patrones estructurales, como caminatas aleatorias o co-ocurrencias. Las GNN aprenden representaciones mediante propagación de mensajes y pueden incorporar atributos, etiquetas y objetivos supervisados de forma más directa.

¿Cómo aprender redes complejas con Python de forma rigurosa?

La ruta práctica es modelar bien nodos y enlaces, auditar datos, usar NetworkX o igraph para métricas, comparar contra modelos nulos, documentar supuestos y validar conclusiones con sensibilidad. El código debe acompañarse siempre de una pregunta sustantiva y no solo de métricas descriptivas.