憨憨-97 24-07-10 23:43

记录如何从网站中批量下载文件,具体的数据排布如图所示:
1.IDM可以爬取所有子链接下的指定类型的文件,但需要验证的服务器不行,对于需要全部下载且不需要授权登录的网站可以
2.Chrome的chrono插件,可以下载当前网页下的所有指定类型的文件,可以用正则表达式进行筛选,但是没办法递归查找路径
3.Chrome的DownThemAll插件,可以下载当前网页下的所有指定类型的文件,可以用正则表达式进行筛选,但是没办法递归查找路径
4.用wget可以递归查找子目录,可对文件名进行筛选,可以用户授权下载,理论上python+wget是无敌的存在,python获取子目录的网址,通过wget筛选需要下载的文件,我筛选了洞庭湖区域的tile编号,下面是个示例:
wget --recursive --level=1 --accept-regex=".*(h27v05|h27v06|h28v05|h28v06).*\.hdf$" http://t.cn/A6QBVxiV --user=XXXX --password=XXXXX -P 本地路径

发布于 北京