九游官方网页版-九游(中国)

机器人学习目前已经被广泛应用（yòng）于现实世界，并可以（yǐ）完成（chéng）精密的手部、腿部动作。但在动（dòng）态且高速的人机互动中，机器人学习并不常见。谷歌选（xuǎn）择开发乒乓球机器人，正是为了探（tàn）索这类情（qíng）况下人工智（zhì）能的（de）可（kě）能性（xìng）。

·使（shǐ）用i-Sim2Real这种方式，在模拟环境下可以让数年的（de）实时训练在（zài）几分钟或几小时内完成。

谷（gǔ）歌i-Sim2Real项目乒乓球机（jī）器人与（yǔ）人类训练。本文图片来源（yuán）：谷歌

似乎现存（cún）的每一种桌上运动中，人工（gōng）智能都立于不（bú）败之地（dì）。乒乓球竞技中，谷（gǔ）歌AI同样难逢敌手。10月18日，谷歌公布其正在研究的“乒乓球机器人”项（xiàng）目，在（zài）与人（rén）类对打时（shí）一回合可接球340次。目（mù）前，谷歌（gē）强调（diào）这只是（shì）人类与AI的“合作”，并非击败人（rén）类，但（dàn）以AI成长（zhǎng）的速度，它将很快成为专业选手。

机器人（rén）学（xué）习目前已经（jīng）被广泛（fàn）应（yīng）用（yòng）于现实世（shì）界，并（bìng）可以完成（chéng）精密的手部、腿部动作。但在动态（tài）且（qiě）高（gāo）速的人机（jī）互动中，机器人学习并不常（cháng）见。谷（gǔ）歌选择开（kāi）发乒乓球机器人，正是为了探（tàn）索这（zhè）类情况下人工（gōng）智（zhì）能的可能性。

解决（jué）“先有鸡（jī）还是先有蛋（dàn）”

在这个名为i-Sim2Real的项目中，谷歌的乒乓（pāng）球机器人在模（mó）拟环境中不断学习，并将学习（xí）成果运用于（yú）现实世界，最终可（kě）以在一个与人类的乒（pīng）乓球接发回合中，接球（qiú）超过三百次（cì）。它还能把球（qiú）送（sòng）回不同的区域，虽然不能（néng）精确到数字上，但已经足够精确到让机器人（rén）规划策（cè）略，来控制（zhì）乒乓球的最（zuì）终目的地。

乒乓（pāng）球机器人可以在一个回合（hé）中接（jiē）球超过三百次。视频来（lái）源：谷歌(00:10)

谷歌（gē）之所以选择乒乓球（qiú）运（yùn）动，是因为机器人（rén）可以与快节奏以及（jí）相对不（bú）可（kě）预测的人类行为进行交互，同时乒乓球的规（guī）则相（xiàng）对于篮球（qiú）、板（bǎn）球（qiú）等运动也较（jiào）为简单直接。机器人完成乒乓球动作时（shí），既要求（qiú）速度又要求精度，这（zhè）对学习算法提出（chū）了很（hěn）高的要求。同（tóng）时，这类运动（dòng）具有固定的、可预测的（de）环（huán）境，使其（qí）成为研（yán）究人机交互和（hé）强化学（xué）习（xí）问（wèn）题的理想测试（shì）平（píng）台（tái）。这些（xiē）特（tè）性使得谷歌开发了i-Sim2Real项目。

i-Sim2Real也不仅仅是关于乒乓球机器人，更是一种人工智能创造（zào）过程的（de）方式，在这个过程中（zhōng），机（jī）器学习模型（xíng）被（bèi）教会在虚（xū）拟环境或模拟中做什（shí）么，然后再应用这些知识，目标（biāo）是尽可能长时间地与人（rén）类进行接（jiē）球回合而不失误。在现实世界中直接与人类玩家进行训练（liàn）既繁琐又耗时，当（dāng）需要数年的试验和（hé）错（cuò）误才能建立一个工作模型时，使用i-Sim2Real这种方式显得十分有效，它在（zài）模拟环境下（xià）可以让数年的实时训练在（zài）几分钟或（huò）几小时内完（wán）成。

这（zhè）种方式听（tīng）起来（lái）简（jiǎn）单高效，但在模拟中机（jī）器人并不是万能的。人类（lèi）的活动具有一定的（de）不可预测性，并不容易模拟，需要（yào）先（xiān）有人类的行为模型作为支撑（chēng）。而人类的行为模型（xíng），又需要（yào）与（yǔ）机器人互动获得。这就陷入了一个（gè）“是先有鸡（jī）还是先有蛋”的死循环。

i-Sim2Real解决这一鸡和蛋（dàn）问题（tí）的方法（fǎ），是（shì）使用一个简单的人类行（háng）为模型作（zuò）为近似起点，并让机器人在（zài）模拟训练和现实训练之间交替学习。在每次迭代（dài）中，都会细化人类（lèi）行为模型（xíng）和策略（luè）。在机器人接近人类行（háng）为的过程中，初期（qī）的不理想是可以接受的，因为机（jī）器人也只（zhī）是刚刚开（kāi）始学习，之后每一（yī）场比赛都会收集更（gèng）多真实的人类（lèi）数据，提高准确性，让（ràng）AI学到（dào）更多。

i-Sim2Real的训练方法。

GoalsEye：通过自我监督（dū）来（lái）自主练（liàn）习（xí）

除了i-Sim2Real这种模拟（nǐ）与现实交替进行的方法，研究（jiū）人（rén）员也（yě）在（zài）探索只使用（yòng）现实的数据学习的方法（fǎ），即（jí）GoalsEye项目。

一开始，模仿学习（IL）为研究人员提供了一种简单（dān）而（ér）稳定的思路，但它需要人类行为进（jìn）行演（yǎn）示，并且机（jī）器人的技术无法超过演示者的水平（píng）。同时，当演（yǎn）示者（zhě）拥（yōng）有在（zài）高速（sù）环（huán）境下精确接球（qiú）的能力（lì）时（shí），收集其数（shù）据具有一定挑战性，而且在刚开始（shǐ）时可（kě）能非常低（dī）效（xiào）。因此研究人员尝试了（le）一种（zhǒng）结合最近行为进行重复（fù）的方法，从（cóng）一个小的、结构薄弱的、非目标数据集开始（shǐ），不断学习精确（què）定（dìng）位目标的策略。

这种方法使得（dé）在训（xùn）练（liàn）的（de）过程中，机器人的（de）自主学（xué）习能力显得至（zhì）关重要。研（yán）究人员设置（zhì）了一个强调精度的乒乓（pāng）球任务，要求机器人将球返回到（dào）桌子上的任意（yì）目标位置。机（jī）器（qì）人可以通（tōng）过自我监督来实现自（zì）主练习。例如，机器（qì）人可（kě）以设置随机（jī）目标，“击中左后角”或“将球从（cóng）右侧过网”，并尝试使用当前（qián）掌握的策略（luè）来实现（xiàn）这些（xiē）目标，从（cóng）而不（bú）断改进。所有（yǒu）尝试都会记录并添加到不断扩展的数据集中。这种自主练习是反复进行的，机器（qì）人通过不断的设置随机目标并尝试目标（biāo），从而扩展训练数（shù）据（jù），调整策（cè）略。

GoalsEye策略旨（zhǐ）在（zài）实现直径20厘米的（de）目（mù）标（左）。人类玩（wán）家瞄（miáo）准同（tóng）一个目标（右）。

GoalsEye的训练（liàn）方法。

其效果也是显而易见的，在进行最初的2480次人类（lèi）行为（wéi）演示（shì）后，机（jī）器人只在9%的（de）情（qíng）况下（xià）能（néng）准确地达到距离目标30厘米以内（nèi）的目标。然而，当机器人又自主练（liàn）习了大约13500次（cì）后，达到目标的准确率（lǜ）上升（shēng）到43%。同时（shí），演示（shì）数（shù）量的（de）提升提高了后续自我练习的效率，这说明，计算时间、成本（běn）等因（yīn）素后，演示可以（yǐ）适当替换自我练习，从（cóng）而更高效的进行训练。

在这两个使用机器人乒乓球研究平台（tái）的互补（bǔ）项目中，i-Sim2Real可以在（zài）模拟（nǐ）与（yǔ）现实中交替（tì）学（xué）习策（cè）略，而GoalsEye则证明，从现实世界的非结构化数据中学习，结合自（zì）我训练，对于在精确且动（dòng）态的要求中学习目标条件策略（luè）是有效的。