2025/09/05 07:48
还是在地铁站内,昨天把招聘信息的爬虫给处理完了,一直到晚上才把所有的企业给全部抓完了,早上草草看了一眼结果,结果应该还是勉强可以接受的,能够有少量的准确信息。当然,由于是大模型做的分析,里面的正确率不能保证100%,但是这个流程应该可以了。后面改进的方向就是一个是抓取搜索结果可以不依赖于接口,可以自行写一个百度或者微信搜狗(用于搜索微信公众号)的接口。另外一个就是可以研究一下如何模拟登录和交互的步骤,让这个的能力扩展开来。
项目,还是要亲手去做,才会有新的能力学习到,比如python的流式输出,比如ollama
的ndjson
的输出解析等等。
后面有几个项目,一个是基于文件hash值的文件整理功能,还有的忘记了,后面想到之后及时记录。对了,还有markdown文件的解析和翻译。
另外,最近两个娃对我的感觉,让我也感觉到不适,也不知道是什么原因,也可能是我自己的感受有问题,感觉真的现在没有什么交流了,这种感觉不大好。还是要想办法扭转下。
2025年09月05日