如何将LLM应用于财经新闻自动聚合?
摘要:1. 背景 这段时间项目比较忙,所以本qiang~有些耽误了学习,不过也算是百忙之中,抽取时间来支撑一个读者的需求,即爬取一些财经网站的新闻并自动聚合。 该读者看了之前的《AI资讯的自动聚合及报告生成》文章后,想要
1.背景
这段时间项目比较忙,所以本qiang~有些耽误了学习,不过也算是百忙之中,抽取时间来支撑一个读者的需求,即爬取一些财经网站的新闻并自动聚合。
该读者看了之前的《AI资讯的自动聚合及报告生成》文章后,想要将这一套流程嵌套在财经领域,因此满打满算耗费了2-3天时间,来完成了该需求。
注意:爬虫不是本人的强项,只是一丢丢兴趣而已; 其次,本篇文章主要是用于个人学习,客官们请勿直接商业使用。
2.面临的难点
1. 爬虫框架选取: 采用之前现学现用的crawl4ai作为基础框架,使用其高阶技能来逼近模拟人访问浏览器,因为网站都存在反爬机制,如鉴权、cookie等;
2. 外网新闻: 需要kexue上网;
3. 新闻内容解析: 此处耗费的工作量最多,并不是html的页面解析有多难,主要是动态页面加载如何集成crawl4ai来实现,且每个新闻网站五花八门。
3.数据源
数据源
url
备注
财lian社
https://www.cls.cn/depth?id=1000
https://www.cls.cn/depth?id=1003
https://www.cls.cn/depth?id=1007
1000: 头条,
1003: A股,
1007: 环球
凤huang网
https://finance.ifeng.com/shanklist/1-64-/
新lang
https://finance.sina.com.cn/roll/#pageid=384&lid=2519&k=&num=50&page=1
https://finance.sina.com.cn/roll/#pageid=384&lid=2672&k=&num=50&page=1
2519: 财经
2672: 美股
环qiu时报
https://finance.huanqiu.com
zaobao
https://www.zaobao.com/finance/china
https://www.zaobao.com/finance/world
国内及世界
fox
https://www.foxnews.com/category/us/economy
https://www.foxnews.com//world/global-economy
美国及世界
cnn
https://edition.cnn.com/business
https://edition.cnn.com/business/china
国内及世界
reuters
https://www.reuters.com/business
4.部分源码
为了减少风险,本qiang~只列出财lian社网页的解析代码,读者如想进一步交流沟通,可私信联系。
