Pix2Pix深度学习模型生成夜间可见光图像(AI-VIS)开发日志

xiaoqianWX · 发表于 2024-12-2 16:58

qscdefb 发表于 2024-12-2 15:51
第七点的3*256*256里面，3是对应RGB三个波段、而256是预设图片大小吗？那么进行了这个scaling后，可以理 ...

“12色的图片”并不被常规的文件格式接受，而且对于人类来说也不友好（如果要检查输入结果是否正确）
4*3和1*12也没有什么本质区别

qscdefb · 发表于 2024-12-2 20:07

xiaoqianWX 发表于 2024-12-2 16:58
“12色的图片”并不被常规的文件格式接受，而且对于人类来说也不友好（如果要检查输入结果是否正确）
4*3 ...

这样的话，能够更仔细解释一下scaling experiment到底做了什么吗？

我不是Carl2 · 发表于 2024-12-4 01:35

qscdefb 发表于 2024-12-2 15:51
第七点的3*256*256里面，3是对应RGB三个波段、而256是预设图片大小吗？那么进行了这个scaling后，可以理 ...

1. 对图片输入的理解没问题，实际操作中是输入了4张512像素的RGB图
2. B07的限制是晚上和白天表现不同，当前训练是用白天数据训练再泛化到夜间的，确实是训练模式阻止了B07的输入，如果使用VIIRS DNB训练就能加入MWIR了。噪点我反而觉得不是问题，CGAN可以处理掉噪点。

xiaoqianWX · 发表于 2024-12-5 01:26

qscdefb 发表于 2024-12-2 20:07
这样的话，能够更仔细解释一下scaling experiment到底做了什么吗？

最早我们设计模型的时候主要考虑的是能不能用，而并没有过多考虑U-net的一些机制
其中我们发现最重要的是filter数量，在我们scale到12*512*512这个输入后，我们的filter数量/px input是明显小于原版pix2pix的，因此拟合的效果差
在经过修改后（模型也变大了4倍），效果明显好了很多，同时原先训练中经常出现的一些斜纹之类的，普遍可以称为“炼烂了”的结果也不存在了

xiaoqianWX · 发表于 2024-12-19 01:46

2024/12/18
又有半个月了，在离开美国前再写个更新
AI-VIS 1.5系列的工作结束了
AI-VIS 1.5系列总结：
1. AI-VIS 1.5 small：几乎可以在任何较新电脑上运行，硬件开销极低
2. AI-VIS 1.5 large：性能开销略高一些，但今天的中端硬件均可在几十秒内跑完一张图
最终SSIM = 0.933, LPIPS = 0.100
3. SuperRes 1.5：见上文
4. SuperRes数据集：已经ship到huggingface: https://huggingface.co/datasets/ ... d03-500m-2km-paired
共249,058对数据，其中62,736来自机动观测，186,322来自于圆盘切片

未来还需要做的：
1. 系统性重新评估过去的几个模型
2. 探讨研究应用

AI-VIS 1.5 large最终training run的一些图：

		自动登录	找回密码
密码			立即注册

[专业画图] Pix2Pix深度学习模型生成夜间可见光图像(AI-VIS)开发日志

点评

点评

本帖子中包含更多资源