化学习环境。其中包括两种2048棋盘表示方式:二进制——使用二次幂矩阵表示棋盘中的每一块区域;非二进制——原始数字矩阵。这个模型包含两种类型的神经网络:nn和lp(多层感知机)。如果我们再将其与时序差分学习和最大期望搜索相结合,在10步每秒的策略下,可以轻松累加到几万的水平,在这个基础上,在依靠7个卷积层的深度卷积网络,最高能够拿到401912分!” 叶秋话音落下,整个礼堂安静地针落可闻