数据集下载踩坑及md5检验

  • Post author:
  • Post category:其他


Camelyon16数据集提供百度云下载途径,于是充了会员把数据集下载了。问题是多个大文件下载很容易出现文件受损的情况,这次就遇到了,折腾了好几天。教训是,下载大文件一定要确保文件没问题,不然之后查问题很麻烦的。作为用户,使用前校验文件是否受损;作为提供者,在提供数据集时额外提供一份md5的清单,规范操作。

建议使用md5进行文件完整性的校验。Linux下使用md5sum命令,Windows下使用certutil -hashfile filename MD5。百度云的原始文件的md5值可以在未下载的情况下进行查看,借鉴知乎问题

https://www.zhihu.com/question/29785347

,建议Windows用户使用

https://github.com/GangZhuo/BaiduPCS_NET/releases

,亲测md5值是准确的。

这次踩坑,表现为ASAP api在读取部分图像的某些patch时会出现全255像素值的情况,而ASAP软件里查看缺没有问题。猜想应该是tif图像的文件头信息受损,ASAP软件可能无视文件头,而api受到文件头影响而无法正常读取;像素值应该没有受损,不然软件里查看应该也会有问题。保险起见,建议重新下载文件。



版权声明:本文为Francisll原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。