高顿教育青岛校区
全国统一学习专线 8:30-21:00
位置:尚训网 > 会计>CQF> CQF强化算法考试内容有哪几个部分?  正文

CQF强化算法考试内容有哪几个部分?

发布时间:2022-04-12 16:43:10来源:转载

一个强化学习算法包括以下几个部分:Model、Policy、Value Function。对于Model,如果是马尔科夫决策过程(MDP),一般包括状态转移的概率模型,以及一个Reward Model,也就是奖励的模型。其实不难理解,既然涉及到马尔科夫链,那一般就有转移概率矩阵;另外这是决策模型,每次决策对应有奖励,所以还有一个奖励模型。

其中s_t是当前状态,s是state的意思,a_t是当前的决策,a是action的意思,它的意思就是一个条件概率,如果当前状态是s,当前决策是a,那么下一次状态到s'的概率是多少呢?就是这个条件概率。

另外,做了这个决策,还要获得相关的奖励,也就是reward,那么应该是多少呢?本质上是一个条件期望:

它的意思也很显然,就是当前状态是s,当前决策是a的情况下,当前的reward(假设为r_t)的期望是多少的意思。

为什么要用到期望呢?因为有时候这个奖励具有随机性。

例如现在的状态是高三了,可以选择出国,可以选则参加高考;如果选择出国,这是action,但对应的结果也是随机的,可能申请到这所学校,可能申请到那所学校;比如申请到前10的概率是10%,申请到前50的概率是50%,或许较终的期望就是申请到第50名左右的学校。因此,不是说做了决策结果就是确定的。

较后一个是Policy,这是比较重要的概念,它的意思可以理解为策略,就是面对当前的状态,应该如何做决策?

因此,一个policy,可以理解为从状态到决策的一个映射。

比如状态的集合记为S,决策(或者说动作)的集合记为A,那么policy就是一个S->A的映射。

Poliyc有确定性的,也有随机的。

确定性的Policy很好理解,就是面对一个特定的状态s,对应有一个确定的决策a。

随机的Policy意思是对于一个特定的状态s,对应的是一个决策的分布。此时可能是这个action,可能是那个action,不是确定的。

比如下棋,面对同样的棋局,可能有几个备选的方案,每次选哪个是随机的,不是确定的。

应该说,强化学习研究的问题大部分都是随机性的policy。

一个value function一定跟一个policy有关,或者说是关于这个policy的value function。

比如一个value function设为V,当前状态假设为s,它计算的是在一定的policy下,未来可以获得的收益的折现求和之后的期望值。

可以看出比较绕,因为它涉及到了很多的随机性。

比如对当前状态s_t=s,未来可以采取的决策是多种多样的,每种决策对应的结果也是随机的。比如随机的policy,对于这种状态s,它可以采取的action是随机的;每个action下,得到的收益也是随机的。这两重随机性要考虑。

还有就是折现值,这涉及到一个折现率discount ratio。为什么需要这个折现率呢?如果从金钱的角度,货币有时间价值,现在的100块钱,跟一年之后的100块钱,肯定不一样;一年之后的100块钱折现到现在要有一个折现率。一般来说,如果利率是r,折现率就是1/(1+r),所以,一般折现率是大于零小于1的,特殊情况可以取等号。

如果折现率是0,也就是未来收益不管多少都不算,只算当前收益;

如果折现率是1,也就是未来收益统统都算,而且不需要衰减。

强化学习一般用于玩游戏,会希望不要做一些无用功。比如理论上一个小人可以左走一步右走一步,拖延时间,就是不去打怪兽,也不去吃果子。但如果有折现率,现在吃果子有100分,但拖到几步之后吃果子只有90分,会迫使机器不会故意拖延时间。

当然,折现率设置不好,也会影响结果。比如下围棋,如果折现率接近1,可能会放着棋子就是不去吃,错失良机;如果接近0,可能会类似贪心算法,很快就吃,否则未来吃分数就不高;因此,本质上也是调参玄学。

好了,上面介绍了RL的3个组成部分:model,policy,value function,然后可以分成两大类:model-based和model-freee。

model-based的意思就是会清楚知道模型,包括马尔科夫决策模型,奖励模型等,都会给出来;但可能并不知道policy或value function。

model-free的意思就是连模型都没有,至于policy和value function,可能知道可能不知道。

比如俄罗斯方块,其实就4种积木,每种1/4,状态就是当前的盘面形态,因此状态转移概率矩阵是知道的,奖励模型也是知道的,这就是model-based,但我们并没有policy,事实上我们的任务就是要设计policy来玩。policy都没有,那么value function肯定也没有的。

但绝大多数时候是没有这么明确的状态转移概率的。比如下围棋,状态转移i概率跟决策有关的,但肯定不知道对手如何决策,甚至决策的概率分布也不知道。这个不是随机的。

俄罗斯方块的概率分布是确定的,因为4种方块每个出来的概率都是25%;但对于棋局,每个格子下的概率不是一样的,可能这个高,可能那个高,不知道的。这种情况下一般可以蒙特卡洛模拟,比如AlphaGo用的蒙特卡洛搜索树。

当然,也可能不知道model,但知道policy的。比如现在高三,下一步读大学,我不知道能去哪一所大学,这个概率不知道的;但我的policy是知道的,只能申请啊,只是不知道能申到哪一所。

当然,哪怕model-based,也是需要蒙特卡罗模拟的。哪怕知道了状态转移的概率,也要按照这个概率不断生成随机样本来研究。

更多培训课程: 青岛CQF 更多学校信息: 高顿教育青岛校区 咨询电话:

相关内容: CQF考试内容 CQF强化算法 CQF考试介绍

同类文章
最新文章
相关热词
导航

雅思 托福 GRE ACT SAT GMAT 多邻国英语测试 英语口语 英语四六级 考研英语 职称日语 商务英语 公共英语 词库 留学 成人英语 AP课程 A-Level SSAT 青少儿英语 OSSD AEAS 个人提升 一级建造师 二级建造师 消防工程师 消防设施操作员 BIM 造价工程师 环评师 监理工程师 咨询工程师 安全工程师 招标师 注册电气工程师 一级注册建筑师 二级注册建筑师 装配式工程师 智慧建造工程师 智慧消防工程师 公路水运检测师 EPC工程总承包 碳排放管理师 CFA 初中级经济师 初级会计师 中级会计师 注册会计师 基金从业 证券从业 税务师 薪税师 ACCA FRM 会计实操 CQF 企业合规师 高级会计师 CMA 教师资格 养老护理员 家庭教育指导师 法律职业资格考试 心理咨询师 健康管理师 保险从业 普通话 育婴员 人力资源管理 专利代理师 教师招聘 Java开发 思科认证 python开发 Web前端 华为认证 软件开发测试 linux云计算 大数据 PMP项目管理 影视后期 photoshop 红帽认证 游戏设计 游戏程序 室内设计 php 产品经理 UI设计 网络运维