机器人学习目前已经被广泛应用(yòng)于现实世界,并可以(yǐ)完成(chéng)精密的手部、腿部动作。但在动(dòng)态且高速的人机互动中,机器人学习并不常见。谷歌选(xuǎn)择开发乒乓球机器人,正是为了探(tàn)索这类情(qíng)况下人工智(zhì)能的(de)可(kě)能性(xìng)。
·使(shǐ)用i-Sim2Real这种方式,在模拟环境下可以让数年的(de)实时训练在(zài)几分钟或几小时内完成。
谷(gǔ)歌i-Sim2Real项目乒乓球机(jī)器人与(yǔ)人类训练。本文图片来源(yuán):谷歌
似乎现存(cún)的每一种桌上运动中,人工(gōng)智能都立于不(bú)败之地(dì)。乒乓球竞技中,谷(gǔ)歌AI同样难逢敌手。10月18日,谷歌公布其正在研究的“乒乓球机器人”项(xiàng)目,在(zài)与人(rén)类对打时(shí)一回合可接球340次。目(mù)前,谷歌(gē)强调(diào)这只是(shì)人类与AI的“合作”,并非击败人(rén)类,但(dàn)以AI成长(zhǎng)的速度,它将很快成为专业选手。
机器人(rén)学(xué)习目前已经(jīng)被广泛(fàn)应(yīng)用(yòng)于现实世(shì)界,并(bìng)可以完成(chéng)精密的手部、腿部动作。但在动态(tài)且(qiě)高(gāo)速的人机(jī)互动中,机器人学习并不常(cháng)见。谷(gǔ)歌选择开(kāi)发乒乓球机器人,正是为了探(tàn)索这(zhè)类情况下人工(gōng)智(zhì)能的可能性。
解决(jué)“先有鸡(jī)还是先有蛋(dàn)”
在这个名为i-Sim2Real的项目中,谷歌的乒乓(pāng)球机器人在模(mó)拟环境中不断学习,并将学习(xí)成果运用于(yú)现实世界,最终可(kě)以在一个与人类的乒(pīng)乓球接发回合中,接球(qiú)超过三百次(cì)。它还能把球(qiú)送(sòng)回不同的区域,虽然不能(néng)精确到数字上,但已经足够精确到让机器人(rén)规划策(cè)略,来控制(zhì)乒乓球的最(zuì)终目的地。
i-Sim2Real也不仅仅是关于乒乓球机器人,更是一种人工智能创造(zào)过程的(de)方式,在这个过程中(zhōng),机(jī)器学习模型(xíng)被(bèi)教会在虚(xū)拟环境或模拟中做什(shí)么,然后再应用这些知识,目标(biāo)是尽可能长时间地与人(rén)类进行接(jiē)球回合而不失误。在现实世界中直接与人类玩家进行训练(liàn)既繁琐又耗时,当(dāng)需要数年的试验和(hé)错(cuò)误才能建立一个工作模型时,使用i-Sim2Real这种方式显得十分有效,它在(zài)模拟环境下(xià)可以让数年的实时训练在(zài)几分钟或(huò)几小时内完(wán)成。
这(zhè)种方式听(tīng)起来(lái)简(jiǎn)单高效,但在模拟中机(jī)器人并不是万能的。人类(lèi)的活动具有一定的(de)不可预测性,并不容易模拟,需要(yào)先(xiān)有人类的行为模型作为支撑(chēng)。而人类的行为模型(xíng),又需要(yào)与(yǔ)机器人互动获得。这就陷入了一个(gè)“是先有鸡(jī)还是先有蛋”的死循环。
i-Sim2Real解决这一鸡和蛋(dàn)问题(tí)的方法(fǎ),是(shì)使用一个简单的人类行(háng)为模型作(zuò)为近似起点,并让机器人在(zài)模拟训练和现实训练之间交替学习。在每次迭代(dài)中,都会细化人类(lèi)行为模型(xíng)和策略(luè)。在机器人接近人类行(háng)为的过程中,初期(qī)的不理想是可以接受的,因为机(jī)器人也只(zhī)是刚刚开(kāi)始学习,之后每一(yī)场比赛都会收集更(gèng)多真实的人类(lèi)数据,提高准确性,让(ràng)AI学到(dào)更多。
i-Sim2Real的训练方法。
GoalsEye:通过自我监督(dū)来(lái)自主练(liàn)习(xí)
除了i-Sim2Real这种模拟(nǐ)与现实交替进行的方法,研究(jiū)人(rén)员也(yě)在(zài)探索只使用(yòng)现实的数据学习的方法(fǎ),即(jí)GoalsEye项目。
一开始,模仿学习(IL)为研究人员提供了一种简单(dān)而(ér)稳定的思路,但它需要人类行为进(jìn)行演(yǎn)示,并且机(jī)器人的技术无法超过演示者的水平(píng)。同时,当演(yǎn)示者(zhě)拥(yōng)有在(zài)高速(sù)环(huán)境下精确接球(qiú)的能力(lì)时(shí),收集其数(shù)据具有一定挑战性,而且在刚开始(shǐ)时可(kě)能非常低(dī)效(xiào)。因此研究人员尝试了(le)一种(zhǒng)结合最近行为进行重复(fù)的方法,从(cóng)一个小的、结构薄弱的、非目标数据集开始(shǐ),不断学习精确(què)定(dìng)位目标的策略。
这种方法使得(dé)在训(xùn)练(liàn)的(de)过程中,机器人的(de)自主学(xué)习能力显得至(zhì)关重要。研(yán)究人员设置(zhì)了一个强调精度的乒乓(pāng)球任务,要求机器人将球返回到(dào)桌子上的任意(yì)目标位置。机(jī)器(qì)人可以通(tōng)过自我监督来实现自(zì)主练习。例如,机器(qì)人可(kě)以设置随机(jī)目标,“击中左后角”或“将球从(cóng)右侧过网”,并尝试使用当前(qián)掌握的策略(luè)来实现(xiàn)这些(xiē)目标,从(cóng)而不(bú)断改进。所有(yǒu)尝试都会记录并添加到不断扩展的数据集中。这种自主练习是反复进行的,机器(qì)人通过不断的设置随机目标并尝试目标(biāo),从而扩展训练数(shù)据(jù),调整策(cè)略。
GoalsEye策略旨(zhǐ)在(zài)实现直径20厘米的(de)目(mù)标(左)。人类玩(wán)家瞄(miáo)准同(tóng)一个目标(右)。
GoalsEye的训练(liàn)方法。
其效果也是显而易见的,在进行最初的2480次人类(lèi)行为(wéi)演示(shì)后,机(jī)器人只在9%的(de)情(qíng)况下(xià)能(néng)准确地达到距离目标30厘米以内(nèi)的目标。然而,当机器人又自主练(liàn)习了大约13500次(cì)后,达到目标的准确率(lǜ)上升(shēng)到43%。同时(shí),演示(shì)数(shù)量的(de)提升提高了后续自我练习的效率,这说明,计算时间、成本(běn)等因(yīn)素后,演示可以(yǐ)适当替换自我练习,从(cóng)而更高效的进行训练。
在这两个使用机器人乒乓球研究平台(tái)的互补(bǔ)项目中,i-Sim2Real可以在(zài)模拟(nǐ)与(yǔ)现实中交替(tì)学(xué)习策(cè)略,而GoalsEye则证明,从现实世界的非结构化数据中学习,结合自(zì)我训练,对于在精确且动(dòng)态的要求中学习目标条件策略(luè)是有效的。