如何将LLM应用于财经新闻自动聚合?

摘要:1. 背景 这段时间项目比较忙,所以本qiang~有些耽误了学习,不过也算是百忙之中,抽取时间来支撑一个读者的需求,即爬取一些财经网站的新闻并自动聚合。 该读者看了之前的《AI资讯的自动聚合及报告生成》文章后,想要
1.背景 这段时间项目比较忙,所以本qiang~有些耽误了学习,不过也算是百忙之中,抽取时间来支撑一个读者的需求,即爬取一些财经网站的新闻并自动聚合。 该读者看了之前的《AI资讯的自动聚合及报告生成》文章后,想要将这一套流程嵌套在财经领域,因此满打满算耗费了2-3天时间,来完成了该需求。 注意:爬虫不是本人的强项,只是一丢丢兴趣而已; 其次,本篇文章主要是用于个人学习,客官们请勿直接商业使用。 2.面临的难点 1. 爬虫框架选取: 采用之前现学现用的crawl4ai作为基础框架,使用其高阶技能来逼近模拟人访问浏览器,因为网站都存在反爬机制,如鉴权、cookie等; 2. 外网新闻: 需要kexue上网; 3. 新闻内容解析: 此处耗费的工作量最多,并不是html的页面解析有多难,主要是动态页面加载如何集成crawl4ai来实现,且每个新闻网站五花八门。 3.数据源 数据源 url 备注 财lian社 https://www.cls.cn/depth?id=1000 https://www.cls.cn/depth?id=1003 https://www.cls.cn/depth?id=1007 1000: 头条, 1003: A股, 1007: 环球 凤huang网 https://finance.ifeng.com/shanklist/1-64-/ 新lang https://finance.sina.com.cn/roll/#pageid=384&lid=2519&k=&num=50&page=1 https://finance.sina.com.cn/roll/#pageid=384&lid=2672&k=&num=50&page=1 2519: 财经 2672: 美股 环qiu时报 https://finance.huanqiu.com zaobao https://www.zaobao.com/finance/china https://www.zaobao.com/finance/world 国内及世界 fox https://www.foxnews.com/category/us/economy https://www.foxnews.com//world/global-economy 美国及世界 cnn https://edition.cnn.com/business https://edition.cnn.com/business/china 国内及世界 reuters https://www.reuters.com/business 4.部分源码 为了减少风险,本qiang~只列出财lian社网页的解析代码,读者如想进一步交流沟通,可私信联系。
阅读全文