网游业界新闻
08-28 00:00 | Julian Runge
曲线拟合的陷阱
曾使用过 EXCEL 的图表展示数据来帮助你理解吗?如果用过的话,你肯定遇到过用趋势线来拟合数据。这是一个非常好的功能,可以让调整变量来拟合你的数据。
已经证明过如果已经有180天的数据,那很容易找一个很好的拟合曲线,但问题也是明显的。图1里的蓝线是用幂函数来拟合真实的数据。红线是只用7天的数据来拟合出来的曲线。
这个例子中,红线的模拟线比真实情况低了大概三分之一左右,这个结果不好。
当然,也可以用曲线拟合其他的指标,例如留存率。N日留存率表示的是下载游戏N天,还有多少的用户在使用你的 APP.
Plumbee 公司的CEO,Ralf Keustermans, 他最近一次的演讲中说到过他们被用曲线拟合留存率耍过。用曲线拟合的 LTV 为9美元,而实际上的LTV只有2.5美元。
这说明了什么?常规的曲线拟合留存率或付费情况可能导致严重的错误判断。
一点改进
所以,似乎还得继续努力去找到更加可靠的预估方法。我做的第一件事情是提高拟合的精度。
EXCEL 的曲线拟合,可以使用两个参数。在用线性函数拟合的时候,LTV=a + b*x。x 是天数。也可以用多项式来进行拟合,但同时,这也可能会导致过度拟合,从而产生更荒谬的结果。
目前最好的拟合函数是幂函数或者指数函数。因此,我需要一个程序能使用更多的参数和一些不同函数的组合来拟合结果。
很幸运的是,有很多免费的工具可以帮助你来用复杂的函数拟合数据。通常,需要在简单函数和过度拟合直接寻找平衡。使用的函数越复杂,对数据的拟合也就越好。
例如用三种函数组合在一起,或者用大量的参数,或者高阶多项式都可以使得你的函数更复杂。
然而,这也意味着,在样本外的数据上,你的函数可能表现的更差些。这里有个例子,请看 Hal Varian 最近的文章,第六页。(我强烈建议你们阅读一下整片文章)
黄金曲线
用更多的数据来做模型,那预测模型也就可以获得更高的精度。在我们的例子中,使用的玩家周期越长,在预测 LTV 的效果也就越好。使用90天的值拟合的曲线在预测180的 LTV 上比使用7天的效果值要好很多。
以我的经验来看,等用户的游戏行为已经达到30天后,再来做预测是可取的。也就是获得30天的数据后再进行预估行为。
也应该保证你的样本够大,至少每个样本要几百个用户。
在用数个函数拟合了好多款游戏后,我的黄金曲线最终定为一个有三个参数的指数函数。目前为止,这个函数在只有有限的几天数据的情况下,预估后面相当长的时间的结果都相当的不错。
你是否在从这个曲线上真正获得黄金?
特别声明:以上文章内容仅代表作者本人观点,不代表当乐观点或立场。如有关于作品内容、版权或其它问题请于作品发表后的30日内与当乐联系(copyright@downjoy.com)
全部联系人