一木禾网盘文件下载地址抓取分析

本文是对抓取一木禾网盘文件下载地址的整个流程就行分析,并依次解决其中各个环节涉及的技术问题。

缘由

最近因为一些个人原因用到了一木禾网盘,这个收费网盘虽然较一些国外的倒数30秒网盘容易了一些,也没有十分钟只能下载一个的限制,但如果下载资源较多还是显得十分麻烦。
网上搜索了很长时间,功夫不负有心认,终于在吾爱破解找到了 cylisme 作品 一木禾网盘批量下载
软件界面如下:

虽然可以进行使用,但是每一个验证码都必须手动输入,就起了自己制作一个网盘批量下载器的想法 。
我本人只是一个C#初学者,言辞中有不正确的请指出,若文中内容侵犯了您的权益,请联系删除。

流程分析

网页端获取下载地址流程分析:
使用Chrome的开发人员工具得到了以下流程

由上图可知,关键性技术问题为验证码识别

验证码识别

一木禾的验证码是杂色点比较多的四位数字,如下图:

尝试过几次自行去杂色点识别数字,但是因为个人对图形处理方面的知识十分有限,均以失败告终,最终使用了次世代验证码识别系统2.3来完成验证码识别,系统支持C#调用,经过几次调教之后已经能对一木禾验证码有不错的识别率。
以下是软件界面:


本篇主要进行一些理论分析,下篇做具体代码实现。