頭部廠商與開源社區共同致力于可及性提升,垂類模型加速開源,將全面助力海量金融文本的基本面邏輯挖掘與投研信息蒸餾。基于開源模型的賦能與專業的Prompt,我們構建了LLM+Datalet投研數據產品:面向主觀投資,對于A股市場公司相關的全量文本信息,形成多維度數據指標的高頻追蹤,更精準地感知市場與基本面變化;面向量化投資,我們重構了研報等文本情緒因子,同時發揮模型智能標注的優勢,嘗試構建行業基本面邏輯挖掘的通用范式,優化基本面量化落地形態。
▍大模型應用效果持續迭代,金融投研應用門檻不斷降低。
(資料圖)
海量數據預訓練為千億參數模型帶來涌現能力,使其具備語言理解與知識蒸餾雙重屬性。國內頭部廠商與開源社區均致力于模型可及性提升,據我們統計國內大模型發布已超過79個。低價的API和應用效果超預期的小模型不斷降低金融垂直場景應用大模型的門檻。算力層面,單塊A100顯卡級別算力已經能夠支持百億參數模型的運行,本地小型算力集群賦能業務成為可能。
▍提升“高精度”投研寬度:聚焦專業文本數據資產,蒸餾基本面信息。
研報信息蒸餾:借助開源模型,通過標準Prompt與低代碼開發,以T+0時間頻率面向全A個股實現研報情緒變化與分歧度跟蹤、賣方新增覆蓋跟蹤、主題推薦觀點提煉與比較。
定向公告蒸餾:通過對公告的預標簽,對通用行業和垂直行業,實現對資本開支、高管變動、產業資本增減持的結構化梳理與數據追蹤。
私域數據結構化:大模型簡化NLP流程,Prompt優化數據解析形式可實現數據流高質量結構化,面向私域數據流,實現投研觀點匯總、投研活動匯總與定向議題的統計。
▍夯實量化因子基本面邏輯體系:提升量化研究的行業邏輯深度。
因子邏輯重構:大模型具備更強大的文本分析能力,面向文本類量化因子,在平衡數據量與運行速度后,可以對相關因子實現優化重構。
因子數據來源擴容:基于開源模型,對于公開產業政策文本,通過設計從投資視角解析政策的Prompt,可自動化標注中信證券一、二級行業與所有政策的個股影響標簽,實現大量非結構化另類數據的因子化。
基本面量化賦能:基于GPT3.5的API接口,面向中信證券109個二級行業,基于宏觀、中觀+微觀三層結構化Prompt,自動完成景氣度研究的邏輯框架與量化因子的構建工作。基于GPT3.5設計解析指標因子的Prompt,實現因子權重的自動化生成。
▍融合LLM+Datalet,擴容主觀投資信息寬度,挖掘量化投資邏輯深度。
模型智能將催生豐富的金融投研場景賦能與創新,借助技術紅利可以向主觀投資提供更專業的數據支持,并推動量化因子挖掘與基本面量化創新。基于開源模型的算力賦能與專業的Prompt交互,我們構建了LLM+Datalet投研數據產品。面向主觀投資,對于市場全量的公司相關文本信息,可形成多維度數據指標的高頻追蹤,更精準地感知市場與基本面變化。面向量化投資,我們重構了研報等文本情緒因子,同時發揮模型智能標注的優勢,嘗試構建行業基本面邏輯挖掘通用范式,優化基本面量化落地形態。
▍風險因素:
國際技術封鎖加劇;國內大模型技術與生態發展不及預期;科技領域政策監管大幅收緊。
關鍵詞: