2023年05月08日
2023/05/08 17:09 昨天又看了下之前爬漫画的程序,程序太久不用,已经失效了。主要是两个方面,一个是数据库,原来的数据库居然是放在了原有的云平台上,现在已经下线了,也不打算再做迁移了。后期更改数据库类型试一下,使用mongodb来做数据的承载。 另一个就是那个网站居然上了Cloudflare用来反扒,这个就有点恶心了,参考了两个用来绕过的方案,软件直接绕cf-ray有点难度,要么就是要花钱。通过另外一种方案试了下,找到原站的源IP地址。测试了一下,应该有戏。 查找隐藏记录的网站:https://search.censys.io/,还挺好使的。 参考文档: https://scrapeops.io/web-scraping-playbook/how-to-bypass-cloudflare/ https://www.zenrows.com/blog/bypass-cloudflare-python –这篇用处不大 主站可以绕,但是cdn的文件位置绕不过去……还需要进一步测试。还好这个站不是很复杂,是相同的主机地址,可以比较方便的绕过。
2023年04月28日
2023/04/28 13:47 昨天把PaaS平台上的Rocket.Chat给重新处理了一下,更换了最新的6.x的版本,主要是原来的发布版本找不到了,原来的文件不知道怎么回事,启动的时候又报错了。更新了版本之后,通过更新node版本,结合昨天对mongodb的处理,把有ReplicaSet控制的mongodb给启动起来了。 然后昨晚的时候,又想着通过snap把原有的Server给升级上去,但是升级失败了。主要的问题有两个,一个是snap中自带caddy没有办法自行签署证书,然后就启动失败了。把caddy的服务给停掉了,之后应用就正常了。 另外还有一个就是升级到6.x的版本时,应用启动出现了错误,说是无法新建索引,因为原来的索引存在了。然后,通过mongosh学会了查找索引,然后删除某一个索引,然后删除表上的所有索引。接着应用也就正常了。 最终的使用环境内,只是把caddy给停用了,毕竟现在有nginx,而且申请证书之类的一切都正常的,暂时没有时间再去研究caddy了,虽说可能用起来可能比nginx更好一些。 具体的处理步骤以及脚本记录如下:Rocket.Chat 关于这个应用的基本维护工作也就到这步了,通过这个学了点nodejs、snap以及mongodb的基本操作处理。 后面继续把重心转去量化计算。 同时,发现自己更适合坐硬板凳,换了一个硬靠背的凳子之后,主要有个手托,然后比之前更舒服一些,天气也开始热起来了。
2023年04月27日
2023/04/27 08:42 今天把之前的欠账清一清,宽带那里的月度绩效调整、mongodb的研究学习并投入使用。 mongodb使用起来感觉还是很方便的,特别是pymongo的方法。如果不是用来做复杂的分析的话,不需要写SQL语句,适合用来做编程。就是自己改的那个chatgpt_telegram_bot的项目不知道是放在哪里了……
2023年04月26日
2023/04/26 14:33 昨晚折腾了一段时间的O聊,突然报表中心就慢的不行了,点完了之后没有正常的请求发送,连抓包都抓了。非常诡异,Chrome上测试就基本正常,但是O聊上就始终打不开,就是完全没有反应的那种。 今天早上听到了其他地市也反馈了相关消息,发现也不只是报表中心的问题,只是我现在几乎不用,所以没有这方面的感觉,真是亏了这些同志们还能坚持用下去,真是不容易。领导们估计也都不用,所以,这个公司、这个部门还能好么? 给了一个妥协后的解决方案,就是换了一个版本的O聊,幸好还有历史版本的下载,也算是能一定程度上缓解这个问题。至于最终处理这个问题,就等别人去找了之后,问题爆发再说吧,这个问题应该很快就能解决的。
2023年04月21日
2023/04/21 16:00 为期三天的培训结束了,除了一张聊胜于无的认证证书以外,也是有这么一点收获的,这个老师也是从运维出身,但是手上含金量的证书不少,而且主要也是从运维的角度去讲的网络安全。倒是挺合我的胃口的。 另外这三天的收获可能最大的就是量化因子的挖掘,目前通过现有的平台,已经能够挖出三个因子,其中还因为每天只能2000分的限制导致Challenge阶段少了点分数。 通过自动化的挖掘和数据分析,在挖因子方面应该还是有希望去突破10K分数的。这个能够半自动化的进行挖掘之后,可以考虑使用其他的平台。比如掘金的那个通过Python程序的改写,然后进行回测和投资。看看投资的收益率情况,最主要也是看看能不能作为第二个收入来源。 火车开始开动了,网络状况是真的不咋地!
2023年04月19日
2023/04/19 09:24 量化入门貌似有点难,试了试调参数,但是连基础的Alpha都调不出来。 2023/04/19 21:33 终于有个根据Example调参,调出来的可以Submit的Alpha了,不知道能不能通过最后的检验。这种完全是靠试的,有点恐怖,这个岂不是要上穷举法。爬虫写好,自动Submit!
2023年04月18日
2023/04/18 08:59 昨晚听了一下量化的培训,那个平台其实就是一个结果平台,只要因子,貌似无法拿数据出来训练,训练和回归还是需要通过掘金的平台,这个应该不是一个适合开发的平台,更多的是用来做回测研究和使用Alphas的。但是,这个因子有钱,倒是可以尝试着研究通过机器学习的方法来做回归,然后再提交。
2023年04月17日
2023/04/17 15:09 今天上午又做了假数据,这一天天的作假,真是太没劲了。不知道是省公司还是上级公司,居然突发奇想,想要知道每个员工在创新工作上的工作量。 现在创新工作在怎么做,难道他们一点都没数么,还要一个个人去填,真是滑天下之大稽,花了一个小时左右整理了下数据,然后刷新了一下通讯录,就把这个给糊过去了。发下去无非也就是乱填,还不如我一把给他们全部做完算了。 然后Oracle12c之后没有了wm_concat函数,取而代之的是listagg函数,测试了一下,没有问题。数据分析技能还是很有用的,只要有,就能给出个结果。 具体脚本 SELECT * FROM (SELECT TRIM(a.user_name) AS user_name, COUNT(1) AS cnt FROM tmp_zjsj_230417 a GROUP BY TRIM(a.user_name)) a1 LEFT JOIN (SELECT TRIM(b.user_name) AS user_name, COUNT(1) AS cnt_y, listagg(b.proj_name) FROM tmp_zjsj_230417 b WHERE b.is_huojiang = '是' GROUP BY TRIM(b.user_name)) b1 ON a1.user_name = b1.user_name LEFT JOIN (SELECT TRIM(c.user_name) AS user_name, COUNT(1) […]
2023年04月12日
2023/04/12 14:51 突然发现Joplin现在也可以画脑图了,而且这个脑图的感觉还不错,插件挺好用的。已经完全可以做VNote的平替了。 发现E5账号也已经在10天前自动续期了,感觉这种程度的话,应该可以长久使用,通过PowerAutomation就可以让账号续期了,而且这次直接是121天了,比上次81天多了不少天,不需要长久去刷新。 订个酒店真是麻烦……,马上就是旅游旺季,都在涨价。 最近,人的状态很有问题,常态化出错,出差的时间居然也搞错了…… 晚上把掘金量化的账号搞定了,接下来就是不断的测试了!可以考虑一下通过GAN的方式来进行买入卖出,以最后的盈利作为分数。