Estabilidad estructural: si hay rupturas (crisis, cambio de régimen), considerar re-estimación por ventana móvil o modelos de cambio de régimen. El paper usa estimación estática sobre toda la muestra (2013–2023) con split 80/20
CUIDADO
Estabilidad estructural: si hay rupturas (crisis, cambio de régimen), considerar re-estimación por ventana móvil o modelos de cambio de régimen. El paper usa estimación estática sobre toda la muestra (2013–2023) con split 80/20
CUIDADO
También se podría entrenar la LSTM para predecir los rendimientos RtR_tRt directamente, pero el enfoque híbrido sugiere que la LSTM se concentre en la parte no lineal/residual que el EGARCH no capturó.
MAYBE
Variables Exógenas ( Xi,t−1X_{i,t-1}Xi,t−1 ):
Serán noticias y sentimientos con la menor frecuencia posible / series temporales de aranceles (NO creo pero quizás). Para disminuir la dimensionalidad utilizar PCA.
Entradas para la LSTM:
IMPORTANTE
utilizando también las variables exógenas.
OJO
Para ARMA: Analiza la Función de Autocorrelación (ACF) y la Función de Autocorrelación Parcial (PACF) de los rendimientos del SX5E para identificar órdenes iniciales rrr y sss .Para GARCH: Los órdenes más comunes para modelos GARCH son (1,1). Empezaremos con EGARCH(1,1) para simplificar y luego ajustaremos.
OJO, IMPORTANTE
Aquí, incorporaremos las variables exógenas.
OJO, MIRAR
Adaptabilidad a Cambios Repentinos: A partir de la Figura 3, se observa que después de julio de 2023, el modelo muestra cierta dificultad para capturar cambios repentinos en el mercado, lo que sugiere que podría no ser tan efectivo con datos más pequeños o en mercados altamente volátiles. La precisión de la predicción puede disminuir después de un período de tiempo prolongado.
OJO, MIRAR
La eficacia del modelo para capturar cambios repentinos del mercado y adaptarse a las tendencias cambiantes es fundamental para su utilidad en aplicaciones financieras del mundo real. Se sugiere que la migración del modelo a una plataforma informática más potente o la reducción de la cantidad de datos utilizados para mejorar el rendimiento del modelo podría ser una opción a explorar.
RELEVANTE
Contingencia del Rendimiento: El rendimiento del modelo depende de las condiciones imperantes del mercado. La naturaleza dinámica de los mercados financieros requiere actualizaciones y recalibraciones continuas del modelo para mantener la precisión predictiva.
MUY IMPORTANTE, MUCHO OJO
Complejidad Computacional: El modelo es complejo y puede requerir duraciones de entrenamiento extendidas y recursos computacionales sustanciales.
OJO
Esta exploración sistemática de modelos combinados busca identificar la configuración óptima para la predicción de precios futuros.
OJO, combinación dos a dos.
Este paso sirve como punto de referencia para evaluar las capacidades predictivas individuales.
Punto de referencia antes de utilizar MULTI-GARCH.
búsqueda de cuadrícula (grid search)
OJO
Modelos GARCH: Los parámetros se determinaron utilizando el método de estimación de máxima verosimilitud (Maximum Likelihood Estimation). Se utilizaron criterios como AIC (Akaike Information Criterion), SC (Schwarz Criterion) y HQ (Hannan-Quinn Criterion) para seleccionar los órdenes óptimos.
MUY IMPORTANTE
Bibliotecas Python Utilizadas:
Bibliotecas de Python
Lenguaje de Programación: Python (versión 3.8.10).
Lenguaje de programación
Normalización: Los datos se normalizaron a una escala de 0 a 1. Esto es crucial en el análisis de datos financieros y para modelos de aprendizaje profundo, ya que estandariza el rango de los datos, los hace más comparables y ayuda a estabilizar el proceso de optimización del descenso de gradiente.
Exactamente como se normalizó?
Las LSTMs, al recibir estas características de volatilidad como entradas adicionales (junto con los precios históricos), pueden formar una comprensión más completa de la dinámica del mercado, permitiéndoles mejorar sus predicciones de precios futuros.
Añadir aquí las datos sobre sondeos y noticias? Pensar muy bien.
APARCH
MIRAR
El término asimétrico γiϵt−iσt−i\gamma_i \frac{\epsilon_{t-i}}{\sigma_{t-i}}γiσt−iϵt−i
OJO
Ecuaciones clave (simplificadas para el resumen, el paper proporciona ecuaciones más detalladas):
OJO
Zt
OJO
Modelo GARCH Estándar:
IMPORTANTE ENTENDER
Funcionamiento
IMPORTANTE ENTENDER
Estado de la celda ( ctc_tct ): Un componente crucial que permite a la red preservar información a través de largos intervalos de tiempo.
Analogía: Ct = Retenido(Edad Media) + Incluido(Luis XIV)
Las RNN tradicionales sufren de problemas de gradiente que se desvanecen o explotan, lo que limita su capacidad para aprender y retener información a largo plazo.
OJO
Variables: Precios diarios de apertura y cierre, volumen de negociación, interés abierto, precios máximos y mínimos, volumen de negocio total, cambios de precio y otra información relevante
DATOS
Para validar la fiabilidad y eficacia del modelo híbrido MULTI-GARCH-LSTM, se utilizaron datos históricos de los precios de futuros de oro de la Bolsa de Futuros de Shanghái (SHFE).
Relevante
Modelos Híbridos:
MUY IMPORTANTE
GRU: Otra variante de RNN que ha mostrado un buen rendimiento en la predicción de precios de acciones [13].
OJO
LSTM (Hochreiter y Schmidhuber, 1997) [31]: Desarrolladas para superar las limitaciones de las RNN tradicionales, capturando eficazmente las relaciones temporales a largo plazo mediante una arquitectura de puertas (input, forget, output) y un estado de celda. Su superioridad en la predicción de precios futuros ha sido destacada en varias investigaciones [14,15].
IMPORTANTE
Estos modelos están diseñados para abordar las limitaciones del GARCH estándar, como la capacidad de modelar efectos asimétricos de la volatilidad (donde los choques positivos y negativos tienen impactos diferentes en la volatilidad
OJO
especialmente en su ineficacia para capturar el efecto de agrupamiento de volatilidad. Esta limitación puede llevar a predicciones subóptimas, ya que la volatilidad es un componente crítico en la dinámica de precios financieros.
IMPORTANTE
Esto es particularmente ventajoso para superar las limitaciones de los modelos econométricos tradicionales en la predicción de precios. Las LSTM, en particular, han sido elogiadas por su rendimiento superior en la predicción de precios futuros.
OJO
Variables más útiles: retornos financieros, volumen y número de ítems enlazados (Lnkd, Item). Variables descartadas: Buzz, Relevance, Sentwords, Totwords (aportaban poco valor predictivo).
IMPORTANTE, MIRAR
2. Preprocesamiento: Filtrado de señales con Kalman Filter Las variables noticiosas son muy ruidosas. Para depurarlas: Se implementa un modelo de espacio de estados Local Level (LNSL): Estado latente ZtZ_tZt sigue un random walk. Observaciones ζt\zeta_tζt = ZtZ_tZt + ruido. El filtro de Kalman se usa para obtener el “verdadero” nivel de sentimiento/feature subyacente, suavizando oscilaciones. También se aplica a las series de retornos financieros.
IMPORTANTE, MIRAR
Agregación: noticias filtradas solo para componentes del índice; agregadas en intervalos de 5 min. Si no había noticias, se arrastraba el último valor.
OJO
Thomson Reuters News Analytics (TRNA)
OJO
Thomson Reuters MarketPsych Indices (TRMI)
OJO
Distribución Asimétrica de t de Student
OJO
La Distribución t de Student es la alternativa más popular y rigurosa en econometría financiera.
OJO
Expected Shortfall (ES o CVaR): El ES (Déficit Esperado) es una medida de riesgo más rigurosa porque calcula la pérdida promedio esperada dado que ya se ha superado el VaR. Es decir, mide lo malo que puede llegar a ser el desastre en la cola.
OJO
Riesgo de Cola: El riesgo de cola se centra en el extremo izquierdo de la distribución, que representa las pérdidas masivas. Es el riesgo de que el mercado experimente una caída (un "crash") que, según los modelos tradicionales, solo debería ocurrir una vez cada cien o mil años.
IMPORTANTE
Necesitas frameworks de Deep Learning: La implementación rigurosa de una red LSTM se realiza utilizando librerías de código abierto como TensorFlow/Keras o PyTorch.
MUY IMPORTANTE
2. Modelos de Espacio de Estados Dinámicos (Dynamic State-Space Models)Estos modelos permiten estimar un proceso subyacente no observable (el estado) que influye en la serie temporal observada. El algoritmo de referencia para la estimación es el Filtro de Kalman.Aplicación: Se pueden utilizar para modelar la tendencia (trend) y el momentum del índice como variables de estado que evolucionan dinámicamente con el tiempo, en lugar de ser constantes.Modelo Riguroso: Un Modelo de Factor de Estado No Observado (Unobserved Component Model) con el Filtro de Kalman es riguroso porque permite que los parámetros (como la media o el coeficiente de una variable exógena) cambien en el tiempo
OJO
1. Modelos de Regresión Cuantil (Quantile Regression Models)En lugar de predecir la media (el valor esperado) del índice, que a menudo es la predicción más difícil y menos útil en finanzas (por la hipótesis del paseo aleatorio), los modelos de regresión cuantil predicen diferentes cuantiles de la distribución de los rendimientos futuros (por ejemplo, el cuantil del 5% o el 95%).Ventaja: Permite estimar de forma más robusta el Riesgo de Cola (Tail Risk), lo que es crucial para la gestión de carteras.
OJO
con la inclusión del VSTOXX
OJO
ARIMA-GARCH/EGARCH Híbrido: Una combinación base es utilizar un modelo ARMA(p,q)−GARCH(1,1) (después de asegurarse de que la serie de retornos sea estacionaria). Esto modela la dependencia lineal de los rendimientos en la media.
Posible
Desarrollar un flujo de datos robusto para recopilar, fusionar y depurar múltiples fuentes de titulares sería un próximo paso valioso. Esto ayudaría a abordar las limitaciones en la cobertura de datos y a mejorar la precisión del modelo en las tareas de predicción de acciones.
IDEAL
Por ejemplo, la recopilación de noticias específicas de cada empresa, como la cobertura de prensa de Microsoft, podría permitir modelos de predicción más específicos .1,3,14]
MIRAR
The three modeling strategies reflect different assumptions about how news influences markets. The time-invariant model identifies persistent semantic patterns but lacks awareness of dynamic context. The short-term time-dependent model incorporates sequential information, making it well-suited to capturing immediate reactions to news while also prone to overfitting if not carefully managed. The long-term model accommodates delayed and cumulative effects, offering strategic value for broader forecasting horizons but at the cost of reduced granularity and increased data demands. The choice of model should ultimately be driven by the prediction objective, the expected temporal profile of news impact, and the tolerance for volatility inherent in the target application.
MUY IMPORTANTE, COMENTAR A ERICK
El tercer modelo extiende el enfoque dependiente del tiempo a un horizonte de pronóstico a más largo plazo, prediciendo movimientos bursátiles con una semana de antelación utilizando un contexto temporal más amplio de titulares incorporados. Este modelo se basa en la idea de que la interpretación de la información por parte del mercado puede evolucionar gradualmente, y ciertos titulares tienen efectos retardados o combinados. Es especialmente adecuado para modelar la deriva del sentimiento a largo plazo y la influencia temática [12].
OJO, IMPORTANTE LA PENÚLTIMA ORACIÓN. No sé hasta que punto es viable que ciertos titulares tienen efectos retardados o combinados.
Sin embargo, esta complejidad temporal adicional hace que el modelo sea más susceptible al sobreajuste de patrones transitorios o espurios, especialmente en entornos volátiles [8]. Además, el proceso de entrenamiento se vuelve más complejo, lo que requiere una ingeniería de características cuidadosa y estrategias de validación con conciencia temporal [9].
MUY IMPORTANTE ESTA CARACTERÍSTICA.
SMAPE mínimo alcanzado para cada dimensión de PCA
Cuánto menos mejor
este modelo puede manejar cada combinación única de estos 4000 días, lo que permite un mayor uso de un determinado conjunto de datos
OJO
Los resultados indicaron que los modelos independientes del tiempo proporcionaron mayor flexibilidad para gestionar diversas condiciones de mercado. Por el contrario, los modelos dependientes del tiempo mostraron un mejor reconocimiento de tendencias secuenciales, pero adolecían de escasez de datos y una generalización reducida. Dada la aleatoriedad de las fluctuaciones del mercado bursátil, el riesgo de sobreajuste en un modelo dependiente del tiempo era alto [6]. Idealmente, buscamos un modelo que aprenda patrones inherentes al mercado en lugar de memorizar datos pasados. Sin embargo, el enfoque independiente del tiempo presenta desafíos, ya que, dado que el modelo nunca ve el mismo punto de datos dos veces, se vuelve más difícil extraer información más profunda de conjuntos de datos limitados. Las investigaciones futuras podrían explorar enfoques híbridos que aprovechen las ventajas de los modelos dependientes e independientes del tiempo para mejorar la precisión sin sobreajuste.
MUCHO OJO Y MUY IMPORTANTE, COMPRENDER BIEN
Se entrenó un modelo nuevo y único para cada combinación de reducción de dimensionalidad de PCA.
OJO
Se realizó una amplia experimentación para probar la mejor configuración y maximizar la precisión y el rendimiento del modelo.
OJO, MUY IMPORTANTE ESTE PASO; ES CLAVE.
No hay garantía de que, en el espacio de muy alta dimensión, la suma de las dos incrustaciones siga reproduciendo una incrustación relevante en el espacio de texto en la conversión inversa [12]. Este problema también aparece durante la reducción de dimensionalidad para reducir la escasez de datos.
ENTENDER BIEN
Si había demasiados titulares, se seleccionaba uno al azar para incluirlo en el modelo. Este proceso ofrecía ventajas para reducir sesgos, ya que no se garantizaba que un titular en particular tuviera el mayor impacto en los precios de las acciones entre los publicados ese día
OJO
Incluir datos de entrada altamente correlacionados posteriormente generaría problemas de invertibilidad de la matriz al realizar la retropropagación
OJO
Para aquellos que sí existían de forma continua desde 1998, dado que existía una correlación superior al 95% entre la mayoría de los datos de las tasas de interés de rendimiento federal, se decidió incluir solo dos fuentes de datos.
OJO, tener en cuenta esta apreciación para Dataset
Los datos de las tasas de interés de rendimiento federal se incluyeron como datos de entrada en el modelo. En particular, se seleccionaron los datos de las tasas de interés a 3 meses y a 10 años de entre las tasas de rendimiento disponibles.
OJO, Dataset
En este paso, fue fundamental descartar cualquier punto de datos que no existiera en todos los conjuntos de datos de entrada. Esto es importante, ya que, por ejemplo, los mercados están cerrados un día, pero existen datos de otra fuente, como los de rendimiento.
OJO, características a tener en cuenta
Otra suposición fue que cualquier hueco en el mercado donde el mercado esté cerrado no tendría impacto. Esto fue necesario para gestionar la gran rotación del precio del viernes al lunes.
OJO, características a tener en cuenta
One possible improvement is transfer learning—where a pre-trained model on general stock data is further fine-tuned for individual stocks like Microsoft or Apple.
OJO, IMPORTANTE
PyTorch was also used to fine-tune hidden layer sizes, dropout, learning, and batch sizes, ensuring all models were configured for maximum accuracy and stability.
PyTorch USO
This subsection discusses each model architecture. All model weights were initialized using Xavier uniform initialization. The purpose of this was to ensure stable gradient flow during training. All models included dropout layers to help prevent overfitting. Most models included a flexible linear layer that mapped the varying input dimensionality into a lower dimensional layer for standardized learning.
MIRAR, Comprender
PyTorch.
IMPORTANTE
The news headlines were not biased or favoring any one particular company between 1998 and 2021.
Importante?
Principal Component Analysis (PCA) was used to reduce the dimensionality of the headline embeddings from the original 1,536 dimensions down to just two. Dimensionality reduction was tested on the logarithmic two, leading to eleven variations of headlines. If the data type where no headlines are included, there are twelve total data variations per class of data after the processing technique.
OJO, MIRAR
Each version of the training data had two headline embedding variations, with 12 and 14 different Principal Component Analysis (PCA) dimensionality reductions tested.
OJO
Figure 3 describes the problem of pairs of vectors where one vector is the previous day, and the other is the next day. The challenge is to build a machine learning system that can separate the two points classes. However, the even distribution of input and output variable pairs of vectors makes it difficult to make generalizations as the distribution is not cleanly linearly separable. It is also important to note that the Shannon Entropy remains roughly the same before and after the Log Return computation, approximately 12.50 for both.Report issue for preceding element
ENTENDER
Interestingly enough, the Log Return signal of just noise is what we intend to have the model predict, as this is the precise noise that, over days and months, defines the entire distribution of the SPY stock signal.
OJO
Signal-to-Noise Ratio (SNR)
ENTENDER Concepto
One of the main goals was to try and decouple the time series data to read that of a not time series data. One key item behind this is to randomize the order of the data. For the LSTM model, this randomization had to be turned off as the model is designed to make fine adjustments. Data from moving averages, such as 30-day or 7-day averages, were not generated and included as inputs to the model to reduce prior dependencies. One significant dependency was the inclusion of the log return calculation.
MUY IMPORTANTE, Comprender la "Fuga de datos".
Many optimizations were included to reduce data leakage, defined as future points that inadvertently affect past points. For example, there can be a situation where the next day’s stock price can inadvertently be present as an input to the model when it should only ever be considered an output. This could lead to a situation where the model has information it is not supposed to have
OJO, MIRAR
Many different types of model architecture were used, including polynomial regression, a feed-forward neural network, and a deep neural network with a long- and short-term memory module. These three were chosen as primary to balance model complexity and overfitting. Too large and complex models tend to be prone to overfitting, whereas too simple models can sometimes lead to underfitting. Overfitting can occur when a model memorizes the output data, leading to low generalizability [8]. Underfitting can lead to poor performance during training and testing of the machine learning system [9].
Razonamiento
A major challenge in financial forecasting is the inherent volatility of stock prices, which follow Brownian motion fluctuations daily. Thus, this research’s key aspect was finding ways to utilize weakly correlated or seemingly uncorrelated data sources and extracting meaningful predictive insights.
Entender perfectamente
Deep learning methods were deliberately minimized to reduce the risk of overfitting, as even a simple neural network architecture demonstrated a dropout rate of nearly 30%, indicating a high degree of correlation among data points and the need for regularization to prevent overfitting.
Razonamiento Importante
Preventing data leakage was significantly important in this project. To be able to perform K-cross-fold validation while having a data set that could include data from other times was to split the data before training and testing. The total data collected was between 1998 and 2021. Training the model and performing K-cross-fold validation were performed on the data between 1998 and 2015. It was then tested extensively on data between 2016 and 2019, with the data from 2020 and 2021 serving as a reserve for further validation and testing.
Realizar pruebas
With these new data sources, a model can predict and examine changes in a time-independent manner, recognizing structures within the data provided for that day. This leads to a model relying heavily on the embedding headline structure for that day.
Razonamiento Importante
Extensive model analysis was performed, testing several model architecture types, such as a feed-forward neural network and a Long Short Term Memory (LSTM) deep neural network architecture.
OJO, MIRAR
converting it into a vector that could be used in cases such as principal component analysis and clustering. The headlines met several parameters, such as the category of the specific news source and the date, which came in handy.
PCA
Sentiment analysis was less preferable due to the advantage of using clustering and other tasks to build a correlation between the stock price and the headlines.
OJO
An OpenAI-based embedding model created an embedding vector point cloud with over 18 thousand headlines. This approach aimed to make the ideas and impacts encapsulated in the headlines searchable and relatable
método
❌ Volatilidad puede ser menos pronunciada que en commodities, lo que exige un ajuste fino en modelos GARCH.
MUY IMPORTANTE, MUCHO OJO
(influencia de factores globales como tipo de cambio o política monetaria internacional)
IMPORTANTE, MUCHO OJO
Aunque el experimento se hizo sobre el SHFE, los autores aclaran que la metodología es extensible a otros futuros sobre índices bursátiles (como CSI 300, SSE50 o CSI500)
RELEVANTE
El SHFE es uno de los mercados de futuros más importantes de China, y el oro representa un activo altamente líquido y con fuerte volatilidad, lo que lo convierte en un buen banco de pruebas para modelos de predicción de precios.
IMPORTANTE ACLARACIÓN