91 Matching Annotations
  1. Nov 2025
    1. Estabilidad estructural: si hay rupturas (crisis, cambio de régimen), considerar re-estimación por ventana móvil o modelos de cambio de régimen. El paper usa estimación estática sobre toda la muestra (2013–2023) con split 80/20

      CUIDADO

  2. Sep 2025
    1. También se podría entrenar la LSTM para predecir los rendimientos RtR_tRt​ directamente, pero el enfoque híbrido sugiere que la LSTM se concentre en la parte no lineal/residual que el EGARCH no capturó.

      MAYBE

    2. Variables Exógenas ( Xi,t−1X_{i,t-1}Xi,t−1​ ):

      Serán noticias y sentimientos con la menor frecuencia posible / series temporales de aranceles (NO creo pero quizás). Para disminuir la dimensionalidad utilizar PCA.

    3. Para ARMA: Analiza la Función de Autocorrelación (ACF) y la Función de Autocorrelación Parcial (PACF) de los rendimientos del SX5E para identificar órdenes iniciales rrr y sss .Para GARCH: Los órdenes más comunes para modelos GARCH son (1,1). Empezaremos con EGARCH(1,1) para simplificar y luego ajustaremos.

      OJO, IMPORTANTE

    4. Adaptabilidad a Cambios Repentinos: A partir de la Figura 3, se observa que después de julio de 2023, el modelo muestra cierta dificultad para capturar cambios repentinos en el mercado, lo que sugiere que podría no ser tan efectivo con datos más pequeños o en mercados altamente volátiles. La precisión de la predicción puede disminuir después de un período de tiempo prolongado.

      OJO, MIRAR

    5. La eficacia del modelo para capturar cambios repentinos del mercado y adaptarse a las tendencias cambiantes es fundamental para su utilidad en aplicaciones financieras del mundo real. Se sugiere que la migración del modelo a una plataforma informática más potente o la reducción de la cantidad de datos utilizados para mejorar el rendimiento del modelo podría ser una opción a explorar.

      RELEVANTE

    6. Contingencia del Rendimiento: El rendimiento del modelo depende de las condiciones imperantes del mercado. La naturaleza dinámica de los mercados financieros requiere actualizaciones y recalibraciones continuas del modelo para mantener la precisión predictiva.

      MUY IMPORTANTE, MUCHO OJO

    7. Esta exploración sistemática de modelos combinados busca identificar la configuración óptima para la predicción de precios futuros.

      OJO, combinación dos a dos.

    8. Modelos GARCH: Los parámetros se determinaron utilizando el método de estimación de máxima verosimilitud (Maximum Likelihood Estimation). Se utilizaron criterios como AIC (Akaike Information Criterion), SC (Schwarz Criterion) y HQ (Hannan-Quinn Criterion) para seleccionar los órdenes óptimos.

      MUY IMPORTANTE

    9. Normalización: Los datos se normalizaron a una escala de 0 a 1. Esto es crucial en el análisis de datos financieros y para modelos de aprendizaje profundo, ya que estandariza el rango de los datos, los hace más comparables y ayuda a estabilizar el proceso de optimización del descenso de gradiente.

      Exactamente como se normalizó?

    10. Las LSTMs, al recibir estas características de volatilidad como entradas adicionales (junto con los precios históricos), pueden formar una comprensión más completa de la dinámica del mercado, permitiéndoles mejorar sus predicciones de precios futuros.

      Añadir aquí las datos sobre sondeos y noticias? Pensar muy bien.

    11. Estado de la celda ( ctc_tct​ ): Un componente crucial que permite a la red preservar información a través de largos intervalos de tiempo.

      Analogía: Ct = Retenido(Edad Media) + Incluido(Luis XIV)

    12. Las RNN tradicionales sufren de problemas de gradiente que se desvanecen o explotan, lo que limita su capacidad para aprender y retener información a largo plazo.

      OJO

    13. Variables: Precios diarios de apertura y cierre, volumen de negociación, interés abierto, precios máximos y mínimos, volumen de negocio total, cambios de precio y otra información relevante

      DATOS

    14. Para validar la fiabilidad y eficacia del modelo híbrido MULTI-GARCH-LSTM, se utilizaron datos históricos de los precios de futuros de oro de la Bolsa de Futuros de Shanghái (SHFE).

      Relevante

    15. LSTM (Hochreiter y Schmidhuber, 1997) [31]: Desarrolladas para superar las limitaciones de las RNN tradicionales, capturando eficazmente las relaciones temporales a largo plazo mediante una arquitectura de puertas (input, forget, output) y un estado de celda. Su superioridad en la predicción de precios futuros ha sido destacada en varias investigaciones [14,15].

      IMPORTANTE

    16. Estos modelos están diseñados para abordar las limitaciones del GARCH estándar, como la capacidad de modelar efectos asimétricos de la volatilidad (donde los choques positivos y negativos tienen impactos diferentes en la volatilidad

      OJO

    17. especialmente en su ineficacia para capturar el efecto de agrupamiento de volatilidad. Esta limitación puede llevar a predicciones subóptimas, ya que la volatilidad es un componente crítico en la dinámica de precios financieros.

      IMPORTANTE

    18. Esto es particularmente ventajoso para superar las limitaciones de los modelos econométricos tradicionales en la predicción de precios. Las LSTM, en particular, han sido elogiadas por su rendimiento superior en la predicción de precios futuros.

      OJO

    1. Variables más útiles: retornos financieros, volumen y número de ítems enlazados (Lnkd, Item). Variables descartadas: Buzz, Relevance, Sentwords, Totwords (aportaban poco valor predictivo).

      IMPORTANTE, MIRAR

    2. 2. Preprocesamiento: Filtrado de señales con Kalman Filter Las variables noticiosas son muy ruidosas. Para depurarlas: Se implementa un modelo de espacio de estados Local Level (LNSL): Estado latente ZtZ_tZt​ sigue un random walk. Observaciones ζt\zeta_tζt​ = ZtZ_tZt​ + ruido. El filtro de Kalman se usa para obtener el “verdadero” nivel de sentimiento/feature subyacente, suavizando oscilaciones. También se aplica a las series de retornos financieros.

      IMPORTANTE, MIRAR

    1. Expected Shortfall (ES o CVaR): El ES (Déficit Esperado) es una medida de riesgo más rigurosa porque calcula la pérdida promedio esperada dado que ya se ha superado el VaR. Es decir, mide lo malo que puede llegar a ser el desastre en la cola.

      OJO

    2. Riesgo de Cola: El riesgo de cola se centra en el extremo izquierdo de la distribución, que representa las pérdidas masivas. Es el riesgo de que el mercado experimente una caída (un "crash") que, según los modelos tradicionales, solo debería ocurrir una vez cada cien o mil años.

      IMPORTANTE

    3. Necesitas frameworks de Deep Learning: La implementación rigurosa de una red LSTM se realiza utilizando librerías de código abierto como TensorFlow/Keras o PyTorch.

      MUY IMPORTANTE

    4. 2. Modelos de Espacio de Estados Dinámicos (Dynamic State-Space Models)Estos modelos permiten estimar un proceso subyacente no observable (el estado) que influye en la serie temporal observada. El algoritmo de referencia para la estimación es el Filtro de Kalman.Aplicación: Se pueden utilizar para modelar la tendencia (trend) y el momentum del índice como variables de estado que evolucionan dinámicamente con el tiempo, en lugar de ser constantes.Modelo Riguroso: Un Modelo de Factor de Estado No Observado (Unobserved Component Model) con el Filtro de Kalman es riguroso porque permite que los parámetros (como la media o el coeficiente de una variable exógena) cambien en el tiempo

      OJO

    5. 1. Modelos de Regresión Cuantil (Quantile Regression Models)En lugar de predecir la media (el valor esperado) del índice, que a menudo es la predicción más difícil y menos útil en finanzas (por la hipótesis del paseo aleatorio), los modelos de regresión cuantil predicen diferentes cuantiles de la distribución de los rendimientos futuros (por ejemplo, el cuantil del 5% o el 95%).Ventaja: Permite estimar de forma más robusta el Riesgo de Cola (Tail Risk), lo que es crucial para la gestión de carteras.

      OJO

    6. ARIMA-GARCH/EGARCH Híbrido: Una combinación base es utilizar un modelo ARMA(p,q)−GARCH(1,1) (después de asegurarse de que la serie de retornos sea estacionaria). Esto modela la dependencia lineal de los rendimientos en la media.

      Posible

    1. Desarrollar un flujo de datos robusto para recopilar, fusionar y depurar múltiples fuentes de titulares sería un próximo paso valioso. Esto ayudaría a abordar las limitaciones en la cobertura de datos y a mejorar la precisión del modelo en las tareas de predicción de acciones.

      IDEAL

    2. Por ejemplo, la recopilación de noticias específicas de cada empresa, como la cobertura de prensa de Microsoft, podría permitir modelos de predicción más específicos .1,3,14]

      MIRAR

    3. The three modeling strategies reflect different assumptions about how news influences markets. The time-invariant model identifies persistent semantic patterns but lacks awareness of dynamic context. The short-term time-dependent model incorporates sequential information, making it well-suited to capturing immediate reactions to news while also prone to overfitting if not carefully managed. The long-term model accommodates delayed and cumulative effects, offering strategic value for broader forecasting horizons but at the cost of reduced granularity and increased data demands. The choice of model should ultimately be driven by the prediction objective, the expected temporal profile of news impact, and the tolerance for volatility inherent in the target application.

      MUY IMPORTANTE, COMENTAR A ERICK

    4. El tercer modelo extiende el enfoque dependiente del tiempo a un horizonte de pronóstico a más largo plazo, prediciendo movimientos bursátiles con una semana de antelación utilizando un contexto temporal más amplio de titulares incorporados. Este modelo se basa en la idea de que la interpretación de la información por parte del mercado puede evolucionar gradualmente, y ciertos titulares tienen efectos retardados o combinados. Es especialmente adecuado para modelar la deriva del sentimiento a largo plazo y la influencia temática [12].

      OJO, IMPORTANTE LA PENÚLTIMA ORACIÓN. No sé hasta que punto es viable que ciertos titulares tienen efectos retardados o combinados.

    5. Sin embargo, esta complejidad temporal adicional hace que el modelo sea más susceptible al sobreajuste de patrones transitorios o espurios, especialmente en entornos volátiles [8]. Además, el proceso de entrenamiento se vuelve más complejo, lo que requiere una ingeniería de características cuidadosa y estrategias de validación con conciencia temporal [9].

      MUY IMPORTANTE ESTA CARACTERÍSTICA.

    6. Los resultados indicaron que los modelos independientes del tiempo proporcionaron mayor flexibilidad para gestionar diversas condiciones de mercado. Por el contrario, los modelos dependientes del tiempo mostraron un mejor reconocimiento de tendencias secuenciales, pero adolecían de escasez de datos y una generalización reducida. Dada la aleatoriedad de las fluctuaciones del mercado bursátil, el riesgo de sobreajuste en un modelo dependiente del tiempo era alto [6]. Idealmente, buscamos un modelo que aprenda patrones inherentes al mercado en lugar de memorizar datos pasados. Sin embargo, el enfoque independiente del tiempo presenta desafíos, ya que, dado que el modelo nunca ve el mismo punto de datos dos veces, se vuelve más difícil extraer información más profunda de conjuntos de datos limitados. Las investigaciones futuras podrían explorar enfoques híbridos que aprovechen las ventajas de los modelos dependientes e independientes del tiempo para mejorar la precisión sin sobreajuste.

      MUCHO OJO Y MUY IMPORTANTE, COMPRENDER BIEN

    7. Se realizó una amplia experimentación para probar la mejor configuración y maximizar la precisión y el rendimiento del modelo.

      OJO, MUY IMPORTANTE ESTE PASO; ES CLAVE.

    8. No hay garantía de que, en el espacio de muy alta dimensión, la suma de las dos incrustaciones siga reproduciendo una incrustación relevante en el espacio de texto en la conversión inversa [12]. Este problema también aparece durante la reducción de dimensionalidad para reducir la escasez de datos.

      ENTENDER BIEN

    9. Si había demasiados titulares, se seleccionaba uno al azar para incluirlo en el modelo. Este proceso ofrecía ventajas para reducir sesgos, ya que no se garantizaba que un titular en particular tuviera el mayor impacto en los precios de las acciones entre los publicados ese día

      OJO

    10. Para aquellos que sí existían de forma continua desde 1998, dado que existía una correlación superior al 95% entre la mayoría de los datos de las tasas de interés de rendimiento federal, se decidió incluir solo dos fuentes de datos.

      OJO, tener en cuenta esta apreciación para Dataset

    11. Los datos de las tasas de interés de rendimiento federal se incluyeron como datos de entrada en el modelo. En particular, se seleccionaron los datos de las tasas de interés a 3 meses y a 10 años de entre las tasas de rendimiento disponibles.

      OJO, Dataset

    12. En este paso, fue fundamental descartar cualquier punto de datos que no existiera en todos los conjuntos de datos de entrada. Esto es importante, ya que, por ejemplo, los mercados están cerrados un día, pero existen datos de otra fuente, como los de rendimiento.

      OJO, características a tener en cuenta

    13. Otra suposición fue que cualquier hueco en el mercado donde el mercado esté cerrado no tendría impacto. Esto fue necesario para gestionar la gran rotación del precio del viernes al lunes.

      OJO, características a tener en cuenta

    14. One possible improvement is transfer learning—where a pre-trained model on general stock data is further fine-tuned for individual stocks like Microsoft or Apple.

      OJO, IMPORTANTE

    15. PyTorch was also used to fine-tune hidden layer sizes, dropout, learning, and batch sizes, ensuring all models were configured for maximum accuracy and stability.

      PyTorch USO

    16. This subsection discusses each model architecture. All model weights were initialized using Xavier uniform initialization. The purpose of this was to ensure stable gradient flow during training. All models included dropout layers to help prevent overfitting. Most models included a flexible linear layer that mapped the varying input dimensionality into a lower dimensional layer for standardized learning.

      MIRAR, Comprender

    17. Principal Component Analysis (PCA) was used to reduce the dimensionality of the headline embeddings from the original 1,536 dimensions down to just two. Dimensionality reduction was tested on the logarithmic two, leading to eleven variations of headlines. If the data type where no headlines are included, there are twelve total data variations per class of data after the processing technique.

      OJO, MIRAR

    18. Each version of the training data had two headline embedding variations, with 12 and 14 different Principal Component Analysis (PCA) dimensionality reductions tested.

      OJO

    19. Figure 3 describes the problem of pairs of vectors where one vector is the previous day, and the other is the next day. The challenge is to build a machine learning system that can separate the two points classes. However, the even distribution of input and output variable pairs of vectors makes it difficult to make generalizations as the distribution is not cleanly linearly separable. It is also important to note that the Shannon Entropy remains roughly the same before and after the Log Return computation, approximately 12.50 for both.Report issue for preceding element

      ENTENDER

    20. Interestingly enough, the Log Return signal of just noise is what we intend to have the model predict, as this is the precise noise that, over days and months, defines the entire distribution of the SPY stock signal.

      OJO

    21. One of the main goals was to try and decouple the time series data to read that of a not time series data. One key item behind this is to randomize the order of the data. For the LSTM model, this randomization had to be turned off as the model is designed to make fine adjustments. Data from moving averages, such as 30-day or 7-day averages, were not generated and included as inputs to the model to reduce prior dependencies. One significant dependency was the inclusion of the log return calculation.

      MUY IMPORTANTE, Comprender la "Fuga de datos".

    22. Many optimizations were included to reduce data leakage, defined as future points that inadvertently affect past points. For example, there can be a situation where the next day’s stock price can inadvertently be present as an input to the model when it should only ever be considered an output. This could lead to a situation where the model has information it is not supposed to have

      OJO, MIRAR

    23. Many different types of model architecture were used, including polynomial regression, a feed-forward neural network, and a deep neural network with a long- and short-term memory module. These three were chosen as primary to balance model complexity and overfitting. Too large and complex models tend to be prone to overfitting, whereas too simple models can sometimes lead to underfitting. Overfitting can occur when a model memorizes the output data, leading to low generalizability [8]. Underfitting can lead to poor performance during training and testing of the machine learning system [9].

      Razonamiento

    24. A major challenge in financial forecasting is the inherent volatility of stock prices, which follow Brownian motion fluctuations daily. Thus, this research’s key aspect was finding ways to utilize weakly correlated or seemingly uncorrelated data sources and extracting meaningful predictive insights.

      Entender perfectamente

    25. Deep learning methods were deliberately minimized to reduce the risk of overfitting, as even a simple neural network architecture demonstrated a dropout rate of nearly 30%, indicating a high degree of correlation among data points and the need for regularization to prevent overfitting.

      Razonamiento Importante

    26. Preventing data leakage was significantly important in this project. To be able to perform K-cross-fold validation while having a data set that could include data from other times was to split the data before training and testing. The total data collected was between 1998 and 2021. Training the model and performing K-cross-fold validation were performed on the data between 1998 and 2015. It was then tested extensively on data between 2016 and 2019, with the data from 2020 and 2021 serving as a reserve for further validation and testing.

      Realizar pruebas

    27. With these new data sources, a model can predict and examine changes in a time-independent manner, recognizing structures within the data provided for that day. This leads to a model relying heavily on the embedding headline structure for that day.

      Razonamiento Importante

    28. Extensive model analysis was performed, testing several model architecture types, such as a feed-forward neural network and a Long Short Term Memory (LSTM) deep neural network architecture.

      OJO, MIRAR

    29. converting it into a vector that could be used in cases such as principal component analysis and clustering. The headlines met several parameters, such as the category of the specific news source and the date, which came in handy.

      PCA

    30. Sentiment analysis was less preferable due to the advantage of using clustering and other tasks to build a correlation between the stock price and the headlines.

      OJO

    31. An OpenAI-based embedding model created an embedding vector point cloud with over 18 thousand headlines. This approach aimed to make the ideas and impacts encapsulated in the headlines searchable and relatable

      método

    1. Aunque el experimento se hizo sobre el SHFE, los autores aclaran que la metodología es extensible a otros futuros sobre índices bursátiles (como CSI 300, SSE50 o CSI500)

      RELEVANTE

    2. El SHFE es uno de los mercados de futuros más importantes de China, y el oro representa un activo altamente líquido y con fuerte volatilidad, lo que lo convierte en un buen banco de pruebas para modelos de predicción de precios.

      IMPORTANTE ACLARACIÓN