您还没有绑定微信,更多功能请点击绑定

《正交法与应用数学》读后感(八)

关联足够,停止寻找模型的启示:无需假设曲线模型类型。
大数据、云计算时代运用相关分析技术冠名以《关联》。和传统的相关分析差异是不寻找数学模型,由于在无数N个随机变量复杂的客观世界中,如找到30%的关联性就是极大成功,相关系数显著性检验均可忽略。
所以《关联性》可定义为非参数统计范畴。
张里千先生先起对田口方法的部分正交试验也怀疑:非随机性加小样本数据是否有可信性?
但由于传统DOE在数学上的严密性,还是认为方差分析、F检验、建立回归方程是DOE最正统的方法,尤其是大量软件工具可方便得出“科学”的答案。
笔者以《巧用EXCEL解决多元非线性回归分析》论文为例子,提出以下质疑。
(一) 投入产出效果对比。
用一轮部分正交试验重复试验的数据建模的可信度和不重复但多轮新水平正交试验可信度对比。(此观点巳在笔者前一贴子发表,不再重复)。
(二) 因子重要性分析方法对比。
由于是二元回归方程,所以单看回归系数大小不能判别重要性。正统方法需偏相关分析或通径分析。原作者用较简单的回归系数显著性分析。
实际上最简单是极差分析不建模:水比氮肥极差明显大。
(三) 正统分析的软肋:假设为前提。
原文把二元二次回归方程(假设两个元均有一次和二次方,一个交互项。是否是二次函数数学模型?实未知!)转换成五元一次方程,交互作用是不显著的。用EXCEL和规划求解出:水304.8,氮肥23.79时,预计最大棉花产量为412。(这是上一贴子(5)中例子,以下要再重新罗嗦一下)
但笔者分析点线图(趋势图)发现两个因子三水平折线均是上凸型曲线。原文求出最佳水平都在第二水平第三水平区间。但趋势图上,两因子折线在2和3水平区间是平行的,即线性关系。而在1和2水平区间是小角度相交的(即交互作用弱):即证明有交互作用!尽管不显著性,但交互作用表示其有稳健性!假如此处组合的最高预测产量不及理论预测高,由于用水和用肥在实践中会发生变异,但其稳健性保证最终产量波动小。何况也可能有好于原文412的组合没发现。
所以笔者认为正确做法以第二水平为中心,以小间隔设二个新水平,做新一轮正交试验,可能找出更好的水平组合。这样有5水平的试验数据了。如线性关系数学模型,3水平够了,而原文是非线性关系,三水平不够。非线性关系案例中,多水平数据比少水平重复试验推出的回归方程可信度更高。
而且原文“假定”这非线性是二次函数,这仅是假设,太粗糙了。要为非线性关系数学模型建模,要化功夫在多种曲线模型中找一个总方差最小的一个。
而极差法用几轮正交试验逼出最佳水平组合,不需要假设数学模型。
小结:
部分正交试验,尤其是非线性关系时,无需假设曲线模型,无需显著性分析。只需用序贯统计思路:走一步,分析一步,逼近最佳组合。

0 个评论

游客无法查看评论和回复, 请先登录注册

发起人

推荐文章

文章状态

  • 发布时间: 2013-08-28 10:21
  • 浏览: 2559
  • 评论: 0
  • 赞: 0