模型训练如何估算参数量

如题,有没有好的办法可以计算出一个任务需要多少隐藏层,以及每个隐藏层需要多少神经元

无免费午餐定理告诉我们,没有任何一个算法可以在任何任务上都取得较好的效果。因此一个算法的好坏一定是针对于某个特定任务的。

目前似乎没有一个通法告诉我们对于不同任务、不同模型架构而言该如何调超参。

但是对于给定任务而言,模型结构、参数量与模型性能之间的关系是可以分析的。
例如,在语言建模任务中,对于transformer架构的模型而言,就有大名鼎鼎的ScalingLaw。

所以,如果能将某任务转换成语言建模任务,那么ScalingLaw对你是有效的。