Hypothesis

91 Matching Annotations

Nov 2025
chatgpt.com chatgpt.com

ChatGPT

1
1. ManuelJarana 17 Nov 2025
  
  in Public
  
  Estabilidad estructural: si hay rupturas (crisis, cambio de régimen), considerar re-estimación por ventana móvil o modelos de cambio de régimen. El paper usa estimación estática sobre toda la muestra (2013–2023) con split 80/20
  
  CUIDADO
Visit annotations in context

Annotators

ManuelJarana

URL

chatgpt.com/c/691b3a7d-2cb4-832c-b0de-d6aa0d5208f1
Sep 2025
aistudio.google.com aistudio.google.com

Google AI Studio

34
1. ManuelJarana 24 Sep 2025
  
  in Public
  
  También se podría entrenar la LSTM para predecir los rendimientos RtR_tRt directamente, pero el enfoque híbrido sugiere que la LSTM se concentre en la parte no lineal/residual que el EGARCH no capturó.
  
  MAYBE
2. ManuelJarana 24 Sep 2025
  
  in Public
  
  Variables Exógenas ( Xi,t−1X_{i,t-1}Xi,t−1 ):
  
  Serán noticias y sentimientos con la menor frecuencia posible / series temporales de aranceles (NO creo pero quizás). Para disminuir la dimensionalidad utilizar PCA.
3. ManuelJarana 24 Sep 2025
  
  in Public
  
  Entradas para la LSTM:
  
  IMPORTANTE
4. ManuelJarana 24 Sep 2025
  
  in Public
  
  utilizando también las variables exógenas.
  
  OJO
5. ManuelJarana 24 Sep 2025
  
  in Public
  
  Para ARMA: Analiza la Función de Autocorrelación (ACF) y la Función de Autocorrelación Parcial (PACF) de los rendimientos del SX5E para identificar órdenes iniciales rrr y sss .Para GARCH: Los órdenes más comunes para modelos GARCH son (1,1). Empezaremos con EGARCH(1,1) para simplificar y luego ajustaremos.
  
  OJO, IMPORTANTE
6. ManuelJarana 24 Sep 2025
  
  in Public
  
  Aquí, incorporaremos las variables exógenas.
  
  OJO, MIRAR
7. ManuelJarana 23 Sep 2025
  
  in Public
  
  Adaptabilidad a Cambios Repentinos: A partir de la Figura 3, se observa que después de julio de 2023, el modelo muestra cierta dificultad para capturar cambios repentinos en el mercado, lo que sugiere que podría no ser tan efectivo con datos más pequeños o en mercados altamente volátiles. La precisión de la predicción puede disminuir después de un período de tiempo prolongado.
  
  OJO, MIRAR
8. ManuelJarana 18 Sep 2025
  
  in Public
  
  La eficacia del modelo para capturar cambios repentinos del mercado y adaptarse a las tendencias cambiantes es fundamental para su utilidad en aplicaciones financieras del mundo real. Se sugiere que la migración del modelo a una plataforma informática más potente o la reducción de la cantidad de datos utilizados para mejorar el rendimiento del modelo podría ser una opción a explorar.
  
  RELEVANTE
9. ManuelJarana 18 Sep 2025
  
  in Public
  
  Contingencia del Rendimiento: El rendimiento del modelo depende de las condiciones imperantes del mercado. La naturaleza dinámica de los mercados financieros requiere actualizaciones y recalibraciones continuas del modelo para mantener la precisión predictiva.
  
  MUY IMPORTANTE, MUCHO OJO
10. ManuelJarana 18 Sep 2025
  
  in Public
  
  Complejidad Computacional: El modelo es complejo y puede requerir duraciones de entrenamiento extendidas y recursos computacionales sustanciales.
  
  OJO
11. ManuelJarana 18 Sep 2025
  
  in Public
  
  Esta exploración sistemática de modelos combinados busca identificar la configuración óptima para la predicción de precios futuros.
  
  OJO, combinación dos a dos.
12. ManuelJarana 18 Sep 2025
  
  in Public
  
  Este paso sirve como punto de referencia para evaluar las capacidades predictivas individuales.
  
  Punto de referencia antes de utilizar MULTI-GARCH.
13. ManuelJarana 18 Sep 2025
  
  in Public
  
  búsqueda de cuadrícula (grid search)
  
  OJO
14. ManuelJarana 18 Sep 2025
  
  in Public
  
  Modelos GARCH: Los parámetros se determinaron utilizando el método de estimación de máxima verosimilitud (Maximum Likelihood Estimation). Se utilizaron criterios como AIC (Akaike Information Criterion), SC (Schwarz Criterion) y HQ (Hannan-Quinn Criterion) para seleccionar los órdenes óptimos.
  
  MUY IMPORTANTE
15. ManuelJarana 18 Sep 2025
  
  in Public
  
  Bibliotecas Python Utilizadas:
  
  Bibliotecas de Python
16. ManuelJarana 18 Sep 2025
  
  in Public
  
  Lenguaje de Programación: Python (versión 3.8.10).
  
  Lenguaje de programación
17. ManuelJarana 18 Sep 2025
  
  in Public
  
  Normalización: Los datos se normalizaron a una escala de 0 a 1. Esto es crucial en el análisis de datos financieros y para modelos de aprendizaje profundo, ya que estandariza el rango de los datos, los hace más comparables y ayuda a estabilizar el proceso de optimización del descenso de gradiente.
  
  Exactamente como se normalizó?
18. ManuelJarana 18 Sep 2025
  
  in Public
  
  Las LSTMs, al recibir estas características de volatilidad como entradas adicionales (junto con los precios históricos), pueden formar una comprensión más completa de la dinámica del mercado, permitiéndoles mejorar sus predicciones de precios futuros.
  
  Añadir aquí las datos sobre sondeos y noticias? Pensar muy bien.
19. ManuelJarana 18 Sep 2025
  
  in Public
  
  APARCH
  
  MIRAR
20. ManuelJarana 18 Sep 2025
  
  in Public
  
  El término asimétrico γiϵt−iσt−i\gamma_i \frac{\epsilon_{t-i}}{\sigma_{t-i}}γiσt−iϵt−i
  
  OJO
21. ManuelJarana 18 Sep 2025
  
  in Public
  
  Ecuaciones clave (simplificadas para el resumen, el paper proporciona ecuaciones más detalladas):
  
  OJO
22. ManuelJarana 18 Sep 2025
  
  in Public
  
  Zt
  
  OJO
23. ManuelJarana 18 Sep 2025
  
  in Public
  
  Modelo GARCH Estándar:
  
  IMPORTANTE ENTENDER
24. ManuelJarana 18 Sep 2025
  
  in Public
  
  Funcionamiento
  
  IMPORTANTE ENTENDER
25. ManuelJarana 18 Sep 2025
  
  in Public
  
  Estado de la celda ( ctc_tct ): Un componente crucial que permite a la red preservar información a través de largos intervalos de tiempo.
  
  Analogía: Ct = Retenido(Edad Media) + Incluido(Luis XIV)
26. ManuelJarana 18 Sep 2025
  
  in Public
  
  Las RNN tradicionales sufren de problemas de gradiente que se desvanecen o explotan, lo que limita su capacidad para aprender y retener información a largo plazo.
  
  OJO
27. ManuelJarana 18 Sep 2025
  
  in Public
  
  Variables: Precios diarios de apertura y cierre, volumen de negociación, interés abierto, precios máximos y mínimos, volumen de negocio total, cambios de precio y otra información relevante
  
  DATOS
28. ManuelJarana 18 Sep 2025
  
  in Public
  
  Para validar la fiabilidad y eficacia del modelo híbrido MULTI-GARCH-LSTM, se utilizaron datos históricos de los precios de futuros de oro de la Bolsa de Futuros de Shanghái (SHFE).
  
  Relevante
29. ManuelJarana 18 Sep 2025
  
  in Public
  
  Modelos Híbridos:
  
  MUY IMPORTANTE
30. ManuelJarana 18 Sep 2025
  
  in Public
  
  GRU: Otra variante de RNN que ha mostrado un buen rendimiento en la predicción de precios de acciones [13].
  
  OJO
31. ManuelJarana 18 Sep 2025
  
  in Public
  
  LSTM (Hochreiter y Schmidhuber, 1997) [31]: Desarrolladas para superar las limitaciones de las RNN tradicionales, capturando eficazmente las relaciones temporales a largo plazo mediante una arquitectura de puertas (input, forget, output) y un estado de celda. Su superioridad en la predicción de precios futuros ha sido destacada en varias investigaciones [14,15].
  
  IMPORTANTE
32. ManuelJarana 18 Sep 2025
  
  in Public
  
  Estos modelos están diseñados para abordar las limitaciones del GARCH estándar, como la capacidad de modelar efectos asimétricos de la volatilidad (donde los choques positivos y negativos tienen impactos diferentes en la volatilidad
  
  OJO
33. ManuelJarana 18 Sep 2025
  
  in Public
  
  especialmente en su ineficacia para capturar el efecto de agrupamiento de volatilidad. Esta limitación puede llevar a predicciones subóptimas, ya que la volatilidad es un componente crítico en la dinámica de precios financieros.
  
  IMPORTANTE
34. ManuelJarana 18 Sep 2025
  
  in Public
  
  Esto es particularmente ventajoso para superar las limitaciones de los modelos econométricos tradicionales en la predicción de precios. Las LSTM, en particular, han sido elogiadas por su rendimiento superior en la predicción de precios futuros.
  
  OJO
Visit annotations in context

Annotators

ManuelJarana

URL

aistudio.google.com/library
chatgpt.com chatgpt.com

ChatGPT

5
1. ManuelJarana 22 Sep 2025
  
  in Public
  
  Variables más útiles: retornos financieros, volumen y número de ítems enlazados (Lnkd, Item). Variables descartadas: Buzz, Relevance, Sentwords, Totwords (aportaban poco valor predictivo).
  
  IMPORTANTE, MIRAR
2. ManuelJarana 22 Sep 2025
  
  in Public
  
  2. Preprocesamiento: Filtrado de señales con Kalman Filter Las variables noticiosas son muy ruidosas. Para depurarlas: Se implementa un modelo de espacio de estados Local Level (LNSL): Estado latente ZtZ_tZt sigue un random walk. Observaciones ζt\zeta_tζt = ZtZ_tZt + ruido. El filtro de Kalman se usa para obtener el “verdadero” nivel de sentimiento/feature subyacente, suavizando oscilaciones. También se aplica a las series de retornos financieros.
  
  IMPORTANTE, MIRAR
3. ManuelJarana 22 Sep 2025
  
  in Public
  
  Agregación: noticias filtradas solo para componentes del índice; agregadas en intervalos de 5 min. Si no había noticias, se arrastraba el último valor.
  
  OJO
4. ManuelJarana 22 Sep 2025
  
  in Public
  
  Thomson Reuters News Analytics (TRNA)
  
  OJO
5. ManuelJarana 22 Sep 2025
  
  in Public
  
  Thomson Reuters MarketPsych Indices (TRMI)
  
  OJO
Visit annotations in context

Annotators

ManuelJarana

URL

chatgpt.com/c/68d15ae2-2e1c-832d-b416-a554346e8243
gemini.google.com gemini.google.com

‎Gemini - Chatea para dar rienda suelta a tus ideas

9
1. ManuelJarana 22 Sep 2025
  
  in Public
  
  Distribución Asimétrica de t de Student
  
  OJO
2. ManuelJarana 22 Sep 2025
  
  in Public
  
  La Distribución t de Student es la alternativa más popular y rigurosa en econometría financiera.
  
  OJO
3. ManuelJarana 22 Sep 2025
  
  in Public
  
  Expected Shortfall (ES o CVaR): El ES (Déficit Esperado) es una medida de riesgo más rigurosa porque calcula la pérdida promedio esperada dado que ya se ha superado el VaR. Es decir, mide lo malo que puede llegar a ser el desastre en la cola.
  
  OJO
4. ManuelJarana 22 Sep 2025
  
  in Public
  
  Riesgo de Cola: El riesgo de cola se centra en el extremo izquierdo de la distribución, que representa las pérdidas masivas. Es el riesgo de que el mercado experimente una caída (un "crash") que, según los modelos tradicionales, solo debería ocurrir una vez cada cien o mil años.
  
  IMPORTANTE
5. ManuelJarana 22 Sep 2025
  
  in Public
  
  Necesitas frameworks de Deep Learning: La implementación rigurosa de una red LSTM se realiza utilizando librerías de código abierto como TensorFlow/Keras o PyTorch.
  
  MUY IMPORTANTE
6. ManuelJarana 22 Sep 2025
  
  in Public
  
  2. Modelos de Espacio de Estados Dinámicos (Dynamic State-Space Models)Estos modelos permiten estimar un proceso subyacente no observable (el estado) que influye en la serie temporal observada. El algoritmo de referencia para la estimación es el Filtro de Kalman.Aplicación: Se pueden utilizar para modelar la tendencia (trend) y el momentum del índice como variables de estado que evolucionan dinámicamente con el tiempo, en lugar de ser constantes.Modelo Riguroso: Un Modelo de Factor de Estado No Observado (Unobserved Component Model) con el Filtro de Kalman es riguroso porque permite que los parámetros (como la media o el coeficiente de una variable exógena) cambien en el tiempo
  
  OJO
7. ManuelJarana 22 Sep 2025
  
  in Public
  
  1. Modelos de Regresión Cuantil (Quantile Regression Models)En lugar de predecir la media (el valor esperado) del índice, que a menudo es la predicción más difícil y menos útil en finanzas (por la hipótesis del paseo aleatorio), los modelos de regresión cuantil predicen diferentes cuantiles de la distribución de los rendimientos futuros (por ejemplo, el cuantil del 5% o el 95%).Ventaja: Permite estimar de forma más robusta el Riesgo de Cola (Tail Risk), lo que es crucial para la gestión de carteras.
  
  OJO
8. ManuelJarana 22 Sep 2025
  
  in Public
  
  con la inclusión del VSTOXX
  
  OJO
9. ManuelJarana 22 Sep 2025
  
  in Public
  
  ARIMA-GARCH/EGARCH Híbrido: Una combinación base es utilizar un modelo ARMA(p,q)−GARCH(1,1) (después de asegurarse de que la serie de retornos sea estacionaria). Esto modela la dependencia lineal de los rendimientos en la media.
  
  Posible
Visit annotations in context

Annotators

ManuelJarana

URL

gemini.google.com/
arxiv.org arxiv.org

Incorporaciones de sentimiento de noticias para la previsión del precio de las acciones

38
1. ManuelJarana 19 Sep 2025
  
  in Public
  
  Desarrollar un flujo de datos robusto para recopilar, fusionar y depurar múltiples fuentes de titulares sería un próximo paso valioso. Esto ayudaría a abordar las limitaciones en la cobertura de datos y a mejorar la precisión del modelo en las tareas de predicción de acciones.
  
  IDEAL
2. ManuelJarana 19 Sep 2025
  
  in Public
  
  Por ejemplo, la recopilación de noticias específicas de cada empresa, como la cobertura de prensa de Microsoft, podría permitir modelos de predicción más específicos .1,3,14]
  
  MIRAR
3. ManuelJarana 19 Sep 2025
  
  in Public
  
  The three modeling strategies reflect different assumptions about how news influences markets. The time-invariant model identifies persistent semantic patterns but lacks awareness of dynamic context. The short-term time-dependent model incorporates sequential information, making it well-suited to capturing immediate reactions to news while also prone to overfitting if not carefully managed. The long-term model accommodates delayed and cumulative effects, offering strategic value for broader forecasting horizons but at the cost of reduced granularity and increased data demands. The choice of model should ultimately be driven by the prediction objective, the expected temporal profile of news impact, and the tolerance for volatility inherent in the target application.
  
  MUY IMPORTANTE, COMENTAR A ERICK
4. ManuelJarana 19 Sep 2025
  
  in Public
  
  El tercer modelo extiende el enfoque dependiente del tiempo a un horizonte de pronóstico a más largo plazo, prediciendo movimientos bursátiles con una semana de antelación utilizando un contexto temporal más amplio de titulares incorporados. Este modelo se basa en la idea de que la interpretación de la información por parte del mercado puede evolucionar gradualmente, y ciertos titulares tienen efectos retardados o combinados. Es especialmente adecuado para modelar la deriva del sentimiento a largo plazo y la influencia temática [12].
  
  OJO, IMPORTANTE LA PENÚLTIMA ORACIÓN. No sé hasta que punto es viable que ciertos titulares tienen efectos retardados o combinados.
5. ManuelJarana 19 Sep 2025
  
  in Public
  
  Sin embargo, esta complejidad temporal adicional hace que el modelo sea más susceptible al sobreajuste de patrones transitorios o espurios, especialmente en entornos volátiles [8]. Además, el proceso de entrenamiento se vuelve más complejo, lo que requiere una ingeniería de características cuidadosa y estrategias de validación con conciencia temporal [9].
  
  MUY IMPORTANTE ESTA CARACTERÍSTICA.
6. ManuelJarana 19 Sep 2025
  
  in Public
  
  SMAPE mínimo alcanzado para cada dimensión de PCA
  
  Cuánto menos mejor
7. ManuelJarana 19 Sep 2025
  
  in Public
  
  este modelo puede manejar cada combinación única de estos 4000 días, lo que permite un mayor uso de un determinado conjunto de datos
  
  OJO
8. ManuelJarana 19 Sep 2025
  
  in Public
  
  Los resultados indicaron que los modelos independientes del tiempo proporcionaron mayor flexibilidad para gestionar diversas condiciones de mercado. Por el contrario, los modelos dependientes del tiempo mostraron un mejor reconocimiento de tendencias secuenciales, pero adolecían de escasez de datos y una generalización reducida. Dada la aleatoriedad de las fluctuaciones del mercado bursátil, el riesgo de sobreajuste en un modelo dependiente del tiempo era alto [6]. Idealmente, buscamos un modelo que aprenda patrones inherentes al mercado en lugar de memorizar datos pasados. Sin embargo, el enfoque independiente del tiempo presenta desafíos, ya que, dado que el modelo nunca ve el mismo punto de datos dos veces, se vuelve más difícil extraer información más profunda de conjuntos de datos limitados. Las investigaciones futuras podrían explorar enfoques híbridos que aprovechen las ventajas de los modelos dependientes e independientes del tiempo para mejorar la precisión sin sobreajuste.
  
  MUCHO OJO Y MUY IMPORTANTE, COMPRENDER BIEN
9. ManuelJarana 19 Sep 2025
  
  in Public
  
  Se entrenó un modelo nuevo y único para cada combinación de reducción de dimensionalidad de PCA.
  
  OJO
10. ManuelJarana 19 Sep 2025
  
  in Public
  
  Se realizó una amplia experimentación para probar la mejor configuración y maximizar la precisión y el rendimiento del modelo.
  
  OJO, MUY IMPORTANTE ESTE PASO; ES CLAVE.
11. ManuelJarana 19 Sep 2025
  
  in Public
  
  No hay garantía de que, en el espacio de muy alta dimensión, la suma de las dos incrustaciones siga reproduciendo una incrustación relevante en el espacio de texto en la conversión inversa [12]. Este problema también aparece durante la reducción de dimensionalidad para reducir la escasez de datos.
  
  ENTENDER BIEN
12. ManuelJarana 19 Sep 2025
  
  in Public
  
  Si había demasiados titulares, se seleccionaba uno al azar para incluirlo en el modelo. Este proceso ofrecía ventajas para reducir sesgos, ya que no se garantizaba que un titular en particular tuviera el mayor impacto en los precios de las acciones entre los publicados ese día
  
  OJO
13. ManuelJarana 19 Sep 2025
  
  in Public
  
  Incluir datos de entrada altamente correlacionados posteriormente generaría problemas de invertibilidad de la matriz al realizar la retropropagación
  
  OJO
14. ManuelJarana 19 Sep 2025
  
  in Public
  
  Para aquellos que sí existían de forma continua desde 1998, dado que existía una correlación superior al 95% entre la mayoría de los datos de las tasas de interés de rendimiento federal, se decidió incluir solo dos fuentes de datos.
  
  OJO, tener en cuenta esta apreciación para Dataset
15. ManuelJarana 19 Sep 2025
  
  in Public
  
  Los datos de las tasas de interés de rendimiento federal se incluyeron como datos de entrada en el modelo. En particular, se seleccionaron los datos de las tasas de interés a 3 meses y a 10 años de entre las tasas de rendimiento disponibles.
  
  OJO, Dataset
16. ManuelJarana 19 Sep 2025
  
  in Public
  
  En este paso, fue fundamental descartar cualquier punto de datos que no existiera en todos los conjuntos de datos de entrada. Esto es importante, ya que, por ejemplo, los mercados están cerrados un día, pero existen datos de otra fuente, como los de rendimiento.
  
  OJO, características a tener en cuenta
17. ManuelJarana 19 Sep 2025
  
  in Public
  
  Otra suposición fue que cualquier hueco en el mercado donde el mercado esté cerrado no tendría impacto. Esto fue necesario para gestionar la gran rotación del precio del viernes al lunes.
  
  OJO, características a tener en cuenta
18. ManuelJarana 17 Sep 2025
  
  in Public
  
  One possible improvement is transfer learning—where a pre-trained model on general stock data is further fine-tuned for individual stocks like Microsoft or Apple.
  
  OJO, IMPORTANTE
19. ManuelJarana 17 Sep 2025
  
  in Public
  
  PyTorch was also used to fine-tune hidden layer sizes, dropout, learning, and batch sizes, ensuring all models were configured for maximum accuracy and stability.
  
  PyTorch USO
20. ManuelJarana 17 Sep 2025
  
  in Public
  
  This subsection discusses each model architecture. All model weights were initialized using Xavier uniform initialization. The purpose of this was to ensure stable gradient flow during training. All models included dropout layers to help prevent overfitting. Most models included a flexible linear layer that mapped the varying input dimensionality into a lower dimensional layer for standardized learning.
  
  MIRAR, Comprender
21. ManuelJarana 17 Sep 2025
  
  in Public
  
  PyTorch.
  
  IMPORTANTE
22. ManuelJarana 17 Sep 2025
  
  in Public
  
  The news headlines were not biased or favoring any one particular company between 1998 and 2021.
  
  Importante?
23. ManuelJarana 17 Sep 2025
  
  in Public
  
  Principal Component Analysis (PCA) was used to reduce the dimensionality of the headline embeddings from the original 1,536 dimensions down to just two. Dimensionality reduction was tested on the logarithmic two, leading to eleven variations of headlines. If the data type where no headlines are included, there are twelve total data variations per class of data after the processing technique.
  
  OJO, MIRAR
24. ManuelJarana 17 Sep 2025
  
  in Public
  
  Each version of the training data had two headline embedding variations, with 12 and 14 different Principal Component Analysis (PCA) dimensionality reductions tested.
  
  OJO
25. ManuelJarana 17 Sep 2025
  
  in Public
  
  Figure 3 describes the problem of pairs of vectors where one vector is the previous day, and the other is the next day. The challenge is to build a machine learning system that can separate the two points classes. However, the even distribution of input and output variable pairs of vectors makes it difficult to make generalizations as the distribution is not cleanly linearly separable. It is also important to note that the Shannon Entropy remains roughly the same before and after the Log Return computation, approximately 12.50 for both.Report issue for preceding element
  
  ENTENDER
26. ManuelJarana 17 Sep 2025
  
  in Public
  
  Interestingly enough, the Log Return signal of just noise is what we intend to have the model predict, as this is the precise noise that, over days and months, defines the entire distribution of the SPY stock signal.
  
  OJO
27. ManuelJarana 17 Sep 2025
  
  in Public
  
  Signal-to-Noise Ratio (SNR)
  
  ENTENDER Concepto
28. ManuelJarana 17 Sep 2025
  
  in Public
  
  One of the main goals was to try and decouple the time series data to read that of a not time series data. One key item behind this is to randomize the order of the data. For the LSTM model, this randomization had to be turned off as the model is designed to make fine adjustments. Data from moving averages, such as 30-day or 7-day averages, were not generated and included as inputs to the model to reduce prior dependencies. One significant dependency was the inclusion of the log return calculation.
  
  MUY IMPORTANTE, Comprender la "Fuga de datos".
29. ManuelJarana 17 Sep 2025
  
  in Public
  
  Many optimizations were included to reduce data leakage, defined as future points that inadvertently affect past points. For example, there can be a situation where the next day’s stock price can inadvertently be present as an input to the model when it should only ever be considered an output. This could lead to a situation where the model has information it is not supposed to have
  
  OJO, MIRAR
30. ManuelJarana 17 Sep 2025
  
  in Public
  
  Many different types of model architecture were used, including polynomial regression, a feed-forward neural network, and a deep neural network with a long- and short-term memory module. These three were chosen as primary to balance model complexity and overfitting. Too large and complex models tend to be prone to overfitting, whereas too simple models can sometimes lead to underfitting. Overfitting can occur when a model memorizes the output data, leading to low generalizability [8]. Underfitting can lead to poor performance during training and testing of the machine learning system [9].
  
  Razonamiento
31. ManuelJarana 17 Sep 2025
  
  in Public
  
  A major challenge in financial forecasting is the inherent volatility of stock prices, which follow Brownian motion fluctuations daily. Thus, this research’s key aspect was finding ways to utilize weakly correlated or seemingly uncorrelated data sources and extracting meaningful predictive insights.
  
  Entender perfectamente
32. ManuelJarana 17 Sep 2025
  
  in Public
  
  Deep learning methods were deliberately minimized to reduce the risk of overfitting, as even a simple neural network architecture demonstrated a dropout rate of nearly 30%, indicating a high degree of correlation among data points and the need for regularization to prevent overfitting.
  
  Razonamiento Importante
33. ManuelJarana 17 Sep 2025
  
  in Public
  
  Preventing data leakage was significantly important in this project. To be able to perform K-cross-fold validation while having a data set that could include data from other times was to split the data before training and testing. The total data collected was between 1998 and 2021. Training the model and performing K-cross-fold validation were performed on the data between 1998 and 2015. It was then tested extensively on data between 2016 and 2019, with the data from 2020 and 2021 serving as a reserve for further validation and testing.
  
  Realizar pruebas
34. ManuelJarana 17 Sep 2025
  
  in Public
  
  With these new data sources, a model can predict and examine changes in a time-independent manner, recognizing structures within the data provided for that day. This leads to a model relying heavily on the embedding headline structure for that day.
  
  Razonamiento Importante
35. ManuelJarana 17 Sep 2025
  
  in Public
  
  Extensive model analysis was performed, testing several model architecture types, such as a feed-forward neural network and a Long Short Term Memory (LSTM) deep neural network architecture.
  
  OJO, MIRAR
36. ManuelJarana 17 Sep 2025
  
  in Public
  
  converting it into a vector that could be used in cases such as principal component analysis and clustering. The headlines met several parameters, such as the category of the specific news source and the date, which came in handy.
  
  PCA
37. ManuelJarana 17 Sep 2025
  
  in Public
  
  Sentiment analysis was less preferable due to the advantage of using clustering and other tasks to build a correlation between the stock price and the headlines.
  
  OJO
38. ManuelJarana 17 Sep 2025
  
  in Public
  
  An OpenAI-based embedding model created an embedding vector point cloud with over 18 thousand headlines. This approach aimed to make the ideas and impacts encapsulated in the headlines searchable and relatable
  
  método
Visit annotations in context

Annotators

ManuelJarana

URL

arxiv.org/html/2507.01970v1
chatgpt.com chatgpt.com

ChatGPT

4
1. ManuelJarana 18 Sep 2025
  
  in Public
  
  ❌ Volatilidad puede ser menos pronunciada que en commodities, lo que exige un ajuste fino en modelos GARCH.
  
  MUY IMPORTANTE, MUCHO OJO
2. ManuelJarana 18 Sep 2025
  
  in Public
  
  (influencia de factores globales como tipo de cambio o política monetaria internacional)
  
  IMPORTANTE, MUCHO OJO
3. ManuelJarana 18 Sep 2025
  
  in Public
  
  Aunque el experimento se hizo sobre el SHFE, los autores aclaran que la metodología es extensible a otros futuros sobre índices bursátiles (como CSI 300, SSE50 o CSI500)
  
  RELEVANTE
4. ManuelJarana 18 Sep 2025
  
  in Public
  
  El SHFE es uno de los mercados de futuros más importantes de China, y el oro representa un activo altamente líquido y con fuerte volatilidad, lo que lo convierte en un buen banco de pruebas para modelos de predicción de precios.
  
  IMPORTANTE ACLARACIÓN
Visit annotations in context

Annotators

ManuelJarana

URL

chatgpt.com/c/68cc32d7-3920-8327-99f3-a76a9adf3725

Annotators

URL

Annotators

URL

Annotators

URL

Annotators

URL

Annotators

URL

Annotators

URL