吴震操：大语言模型将改变投资研究范式|直击2024外滩大会

①大模型如何帮助金融工作者降本增效？它又如何发挥潜能帮助管理金融机构内外部知识？
② 在“In AI 无限未来”创新大会的“‘我与AI’TED演讲”上，恒生聚源总经理吴震操分享了他的思考与实践。

《科创板日报》9月5日讯（特约记者王云嘉）今日，“‘In AI·无限未来’创新大会”正式亮相外滩大会。本次AI 创新大会由上海报业集团旗下财联社、科创板日报主办， AI daily、蓝鲸新闻协办，于上海·黄浦世博园区 C11馆举行，是2024外滩大会核心“见解论坛”之一。

大模型如何帮助金融工作者降本增效？它又如何发挥潜能帮助管理金融机构内外部知识？在“In AI 无限未来”创新大会的“‘我与AI’TED演讲”上，恒生聚源总经理吴震操分享了他的思考与实践。

▍信息爆炸时代如何获取资讯

“对于投资来说，这是特别知识密集型的工作。不管是机构投资者、研究员、还是基金经理，大家每天要处理海量的信息，全国各地去跑参加路演，调研不同公司，阅读大量的文档、资讯，摘要、整理再计算做估值，做各种各样的推理演算，最后给自己的买方形成报告或者给自己的基金经理形成报告。”

“数据公司在这里面是做什么呢？恒生聚源作为一家数据公司，在过去二十几年里面，第一件事就是帮助所有的投资者，能够从庞大的资讯里面找到他们需要的信号。大家能够对于他们投资的方向作出分析判断，对还是错？风险在哪儿？我们从2000年开始做一件事，就是把非结构化的数据结构化，把全国、乃至全球各地的数据全部搬到大家的桌面，这个事情做了二十几年，一直到人工智能出现。我们发现人工的速度确实赶不上机器进化的速度。”

如何用人工智能解决这个问题？在2016年，恒生聚源选择的第一条路是知识图谱，“我们花了很大的力气去给产业做各种各样的标签，包括产业链的梳理，构建三元组，构建各种各样的关系等等，这里面花费了大量的人力物力。知识图谱很准，但是最大问题是要弄清楚所有的知识和关系的蔓延，这意味着我们还需要继续花费大量的人力和物力。”

▍大模型颠覆投资研究范式

“一直到2022年，大模型彻底的改变了我们整个知识生产，以及大家消费知识的方式。斯坦福在今年初的报告里说，到2026年市场上所有的高质量的数据都会被大模型消耗掉，到2030年全球所有的公开数据都会被大模型吃掉。接下来，数据的收集、知识的生成、把数据整合成知识的过程将被彻底地颠覆。从源头数据到连接信息到生产知识的整个过程被高度压缩了，大模型颠覆了整个知识生产，也颠覆了投资和研究的知识处理。我们想赶上这个浪潮，于是在我们自己内部开始了一个金融大模型的项目，取名叫做‘语控万数’。”

“金融行业大模型应用最关键的一点是要准，但是在大模型实践运用中，很多信息是不准确的，很多推理也不正确。很多结论和推断不知道是为什么给出的，这恰恰是金融行业你需要去解决的。不管是研究员或者投资顾问也好，你需要告诉你所服务的基金经理或者个人投资者，你的数据是哪儿来的。”

“过去两年时间我们在大模型和投研上走了一条很长的路。尝试了Bloom、Pythia、智谱、LLaMa2、千问等多个基座大模型。在训练金融垂域大模型时，使用了我们在过去20年积累的4000亿Token、3500万篇文本。同时，我们已经写了一百万条精调的语料，全是我们的研究员一条条写出来的。通过这些训练，我们有了一个更懂金融的大模型，接下来我们又做了中间层，做了自己的RAG链路，使用小的模型解析我们的问题，接着拿这些解析结果到我们的金融数据库里面来搜寻最精确的数据，把数据反馈回来，给到大模型做提示、组装，直到产生最后的结果。使得大模型的反馈做到了及时、准确、和可溯源”

“我们基于自己的金融大模型以及中间件开发了一个智能投研工作台——WarrenQ。它是一个融合了大模型、AI工具、协同笔记、金融数据等各种工具，给研究员提供一站式的数据和信息获取、加工、分析、以及写作的平台。通过“大模型+AI工具+金融数据+N场景”的模式，WarrenQ已经与多家金融机构进行了多样性、深度场景化的合作探索落地，未来也将持续为金融人士提供智能化的数据分析和交互技术，提升工作效率。

“在人工智能的时代，AI模型爆发的过程中，投资研究底层逻辑还是要基于数据。算法、算力和数据，在金融领域中，数据最后永远是最重要的那一点。投资决策是基于精准的判断。智能投研在增质提效中一定要以大模型平台服务为中心，去连接各种各样的数据源，形成机构自己的知识管理能力。”吴震操表示。

特别声明：文章内容仅供参考，不构成投资建议。投资者据此操作风险自担。