如何将LLM应用于财经新闻自动聚合？

摘要：1.&#160;背景这段时间项目比较忙，所以本qiang~有些耽误了学习，不过也算是百忙之中，抽取时间来支撑一个读者的需求，即爬取一些财经网站的新闻并自动聚合。该读者看了之前的《AI资讯的自动聚合及报告生成》文章后，想要

1.背景这段时间项目比较忙，所以本qiang~有些耽误了学习，不过也算是百忙之中，抽取时间来支撑一个读者的需求，即爬取一些财经网站的新闻并自动聚合。该读者看了之前的《AI资讯的自动聚合及报告生成》文章后，想要将这一套流程嵌套在财经领域，因此满打满算耗费了2-3天时间，来完成了该需求。注意：爬虫不是本人的强项，只是一丢丢兴趣而已; 其次，本篇文章主要是用于个人学习，客官们请勿直接商业使用。 2.面临的难点 1. 爬虫框架选取: 采用之前现学现用的crawl4ai作为基础框架，使用其高阶技能来逼近模拟人访问浏览器，因为网站都存在反爬机制，如鉴权、cookie等； 2. 外网新闻: 需要kexue上网； 3. 新闻内容解析: 此处耗费的工作量最多，并不是html的页面解析有多难，主要是动态页面加载如何集成crawl4ai来实现，且每个新闻网站五花八门。 3.数据源数据源 url 备注财lian社 https://www.cls.cn/depth?id=1000 https://www.cls.cn/depth?id=1003 https://www.cls.cn/depth?id=1007 1000: 头条, 1003: A股, 1007: 环球凤huang网 https://finance.ifeng.com/shanklist/1-64-/ 新lang https://finance.sina.com.cn/roll/#pageid=384&lid=2519&k=&num=50&page=1 https://finance.sina.com.cn/roll/#pageid=384&lid=2672&k=&num=50&page=1 2519: 财经 2672: 美股环qiu时报 https://finance.huanqiu.com zaobao https://www.zaobao.com/finance/china https://www.zaobao.com/finance/world 国内及世界 fox https://www.foxnews.com/category/us/economy https://www.foxnews.com//world/global-economy 美国及世界 cnn https://edition.cnn.com/business https://edition.cnn.com/business/china 国内及世界 reuters https://www.reuters.com/business 4.部分源码为了减少风险，本qiang~只列出财lian社网页的解析代码，读者如想进一步交流沟通，可私信联系。

如何将LLM应用于财经新闻自动聚合？

相关推荐