2022年8月14日 (日) 03:07 Cslt

2022-08-14T03:07:18Z

Cslt：以“==教学目标== * 了解动作机器人和移动机器人的区别 * 了解扫地机器人的发展历史，理解“路径规划”对扫地机器人的重要意...”为内容创建页面

2022-08-14T03:01:59Z

以“==教学目标== * 了解动作机器人和移动机器人的区别 * 了解扫地机器人的发展历史，理解“路径规划”对扫地机器人的重要意...”为内容创建页面

新页面

==教学目标==

* 了解动作机器人和移动机器人的区别
* 了解扫地机器人的发展历史，理解“路径规划”对扫地机器人的重要意义
* 了解SLAM算法的基本原理，理解其在无人驾驶汽车、无人机等移动机器人上的应用。

==教学内容==

===打游戏 VS 下棋 ===

* 人工智能不仅会下棋，还会打电子游戏。和下棋相比，游戏似乎更复杂一些，如下图所示的一款称为Breakout的游戏，玩家需要左右控制红色托板接住掉下来的小球，使小球反弹回去并打破彩色壁板。打破的壁板越多，得分越高。玩家需要采取有效策略，以获得更高的得分。
* 机器要学会打这款游戏，首先必须要学会观察屏幕，包括小球和托板的位置，壁板的破裂情况，屏幕上方的分数等等。第二，基于这些观察，机器要生成一个动作来操控游戏杆，这些动作串连起来后将得到最大的奖励分值。
* 和棋类游戏相比，上述游戏操控任务最大的不同是机器得到的输入是一幅游戏画面，这意味着对系统状态的确定和评估更加困难。

===Atari游戏 ===

* 2015年，DeepMind公司发表了深度强化学习方案，在50款Atari游戏中的29款中取得了超过人类玩家的性能。DeepMind的模型是一个用强化学习训练的深度卷积神经网络。
* 如右图一所示，游戏画面经过一个卷积神经网络后，直接输出操作杠的操作指令。训练时，将屏幕上显示的得分作为奖励信号，通过调整网络参数，使得得分越大越好。经过大量训练，机器就可以学会打游戏的技巧。这类似于把游戏机交给一个小孩，让他自己去摸索尝试，最后他总能学成高手。
* 上述学习过程是典型的强化学习，因为学习信号来自于游戏给出的分数，而不是如何操纵游戏杆的具体监督信息。
* 值得注意的是，卷积神经网络将原始游戏画面映射为连续隐空间中的点，从而实现了系统状态的表达与估值，正是通过神经网络的这种状态学习能力，机器才得到抓住机会，做出正确的动作。

===捉迷藏游戏===

* 2019年，OpenAI发布了一个玩捉迷藏游戏的AI。虚拟世界有两个小人，一个负责藏，一个负责找。虚拟场景中有一些数字工具，如挡板、箱子等，小人可以利用这些工具辅助自己躲藏或捕捉。设计者给这两个小人足够的自由，唯一的目标是蓝色小人尽量隐藏自己，而红色小人尽量要抓到对方。这是一个标准的对抗游戏。
* 研究者让两个小人开始游戏，并利用和Atari一样的强化学习策略来训练他们的策略网络。当做了上亿次游戏后，研究者惊奇地发现，这两个小人竟然学会了利用工具的各种复杂技巧。例如，蓝色小人学会了用挡板搭个小室，然后把自己藏在小室的角落里，而红色小人则学会了搭个箱子，站在箱子上发现藏起来的对方。
* 这一模拟游戏带给人们的震撼不仅是两个小人在短时间内学会了各种技巧，更重要的是它向人们展示了基于一个朴素的生存目标，一个智能体在对抗环境中可能演化到何等高度：他可能创造出新的方法，新的模态，甚至新的工具。如果放到一个物理的开放世界里，AI可能进化出让人惊讶的能力。
* 需仔细向学生解释这一游戏背后的重要意义。

===AlphaStar===

* 2019年，DeepMind推出另一项重磅成果：在一款称为StarCraft II 的即时策略游戏中，他们研制的AlphaStar AI程序达到了人类专业玩家水平。和AlphaGo类似，AlphaStar首先从人类玩家的历史数据中学习一个初始模型，再通过自我对战进行强化学习。
* 和围棋游戏不同，StartCraft中每个玩家只能看到部分信息，而且可采取的策略千变万化，是真正的开放环境。AlphaStar的成功，证明AI智能体不仅可以学习简单的个体策略，还可以学习大规模、群体性的策略。
* 需仔细向学生解释这一游戏背后的重要意义。例如，有些国家已经开始基于AlphaStar的思路，研发战场上的自动指挥系统。

@@ 第3行： / 第3行： @@
 * 了解动作机器人和移动机器人的区别
 * 了解扫地机器人的发展历史，理解“路径规划”对扫地机器人的重要意义
-* 了解SLAM算法的基本原理，理解其在无人驾驶汽车、无人机等移动机器人上的应用。
+* 了解SLAM算法的基本原理，理解其在无人驾驶汽车、无人机等移动机器人上的应用
 ==教学内容==
-===打游戏 VS 下棋 ===
+===机器人===
-* 人工智能不仅会下棋，还会打电子游戏。和下棋相比，游戏似乎更复杂一些，如下图所示的一款称为Breakout的游戏，玩家需要左右控制红色托板接住掉下来的小球，使小球反弹回去并打破彩色壁板。打破的壁板越多，得分越高。玩家需要采取有效策略，以获得更高的得分。
+* 机器人是人类改造自然的利器。今天，无数机器人在太空探索、火场救援、疾病诊疗等各个领域大显身手。
-* 机器要学会打这款游戏，首先必须要学会观察屏幕，包括小球和托板的位置，壁板的破裂情况，屏幕上方的分数等等。第二，基于这些观察，机器要生成一个动作来操控游戏杆，这些动作串连起来后将得到最大的奖励分值。
+* 人们通常将人工智能与机器人直接关联起来，事实上绝大多数现有机器人都是按人类编排好的指令在做事，真正具有较高智商的机器人并不多。但是这并不影响它们为人类做事。
-* 和棋类游戏相比，上述游戏操控任务最大的不同是机器得到的输入是一幅游戏画面，这意味着对系统状态的确定和评估更加困难。
+* 机器人大致可分两种：动作机器人（如机械臂，机器手），移动机器人（自动驾驶汽车，无人机）。
-===Atari游戏 ===
+===扫地机器人的历===
-* 2015年，DeepMind公司发表了深度强化学习方案，在50款Atari游戏中的29款中取得了超过人类玩家的性能。DeepMind的模型是一个用强化学习训练的深度卷积神经网络。
+* 1996年伊莱克斯发布的三叶虫扫地机器人是最早的扫地机器人。
-* 如右图一所示，游戏画面经过一个卷积神经网络后，直接输出操作杠的操作指令。训练时，将屏幕上显示的得分作为奖励信号，通过调整网络参数，使得得分越大越好。经过大量训练，机器就可以学会打游戏的技巧。这类似于把游戏机交给一个小孩，让他自己去摸索尝试，最后他总能学成高手。
+* 2002年iRobot家用扫地机器人Roomba，基于螺旋行进和遇障改变方向实现路径选择。
-* 上述学习过程是典型的强化学习，因为学习信号来自于游戏给出的分数，而不是如何操纵游戏杆的具体监督信息。
+* 2010年, Neato发布Neato XV-11 激光测距扫地机器人，基于SLAM算法进行定位和路径规划。
-* 值得注意的是，卷积神经网络将原始游戏画面映射为连续隐空间中的点，从而实现了系统状态的表达与估值，正是通过神经网络的这种状态学习能力，机器才得到抓住机会，做出正确的动作。
+* 2015年，iRobot推出带摄像头的扫地机器人Roomba 980，利用视觉SLAM算法进行定位。
-===捉迷藏游戏===
+===路径规划===
-* 2019年，OpenAI发布了一个玩捉迷藏游戏的AI。虚拟世界有两个小人，一个负责藏，一个负责找。虚拟场景中有一些数字工具，如挡板、箱子等，小人可以利用这些工具辅助自己躲藏或捕捉。设计者给这两个小人足够的自由，唯一的目标是蓝色小人尽量隐藏自己，而红色小人尽量要抓到对方。这是一个标准的对抗游戏。
+* 扫地机器人的动作部件相对简单。因为工作场景相对平坦，用轮子驱动即可行动自如。清扫部件也比较简单，由毛刷、滚筒和电机组成，滚筒卷起垃圾倒入垃圾盒中。比较困难的是路径规划，即到哪里去清扫的问题。
-* 研究者让两个小人开始游戏，并利用和Atari一样的强化学习策略来训练他们的策略网络。当做了上亿次游戏后，研究者惊奇地发现，这两个小人竟然学会了利用工具的各种复杂技巧。例如，蓝色小人学会了用挡板搭个小室，然后把自己藏在小室的角落里，而红色小人则学会了搭个箱子，站在箱子上发现藏起来的对方。
+* 早期扫地机器人多采用随机碰撞的方式来选择清扫路线。机器人从一个位置开始行动，碰到障碍物后以一个随机的角度转向，往新方向继续清扫。显然，这种随机清扫方式效率较低，如果房间较大，障碍物较多，机器人行动起来会很困难，还有可能被堵在一个角落里转不出来。
-* 这一模拟游戏带给人们的震撼不仅是两个小人在短时间内学会了各种技巧，更重要的是它向人们展示了基于一个朴素的生存目标，一个智能体在对抗环境中可能演化到何等高度：他可能创造出新的方法，新的模态，甚至新的工具。如果放到一个物理的开放世界里，AI可能进化出让人惊讶的能力。
+* 2010后的新款扫地机器人多装有激光测距仪，通过向周围发射激光并接收反射来判断障碍物的方向和远近，以便及时避障。更重要的是，基于这些反射光信息，机器人不仅可以“看”到障碍物，还能同时建立环境地图，并确认自己在图中的位置，这一算法称为SLAM算法（算法细节见下一节）。有了SLAM算法，就可以构造出环境地图，也就可以在清扫开始前规划好路线。
-* 需仔细向学生解释这一游戏背后的重要意义。
+* 新一代机器人不仅装有激光测距，还装上了可见光摄像头。摄像头对周围环境的感知比激光更加精确，对路径的规划也更加合理。
-===AlphaStar===
+===地图构建与定位===
-* 2019年，DeepMind推出另一项重磅成果：在一款称为StarCraft II 的即时策略游戏中，他们研制的AlphaStar AI程序达到了人类专业玩家水平。和AlphaGo类似，AlphaStar首先从人类玩家的历史数据中学习一个初始模型，再通过自我对战进行强化学习。
+* 扫地机器人进入一个新坏境后，对这个环境一无所知，也不知道自己身处何方，如何开工呢？常用办法是给它装上一个传感器，让它能感知周围的环境。有了这个传感器（如激光雷达、摄像头），它就可以观察周围场景并构造出局部地图，同时在图中定位自身的位置。
-* 和围棋游戏不同，StartCraft中每个玩家只能看到部分信息，而且可采取的策略千变万化，是真正的开放环境。AlphaStar的成功，证明AI智能体不仅可以学习简单的个体策略，还可以学习大规模、群体性的策略。
+* 有了局部地图后，机器人可以向未知的地方继续探索，同步扩展地图的覆盖区域，直到整个环境探索完成。这一方法称为同步定位与地图构建算法 (Simultaneous Localization And Mapping，SLAM）。
-* 需仔细向学生解释这一游戏背后的重要意义。例如，有些国家已经开始基于AlphaStar的思路，研发战场上的自动指挥系统。
+* 这类似于把一个人置于一个陌生环境中，他开始对这个环境一无所知，但他有眼睛，可以观察，一边走一边把环境探索出来，并在脑海里形成地图。

教学参考-33 - 版本历史

2022年8月14日 (日) 03:07 Cslt

Cslt：以“==教学目标== * 了解动作机器人和移动机器人的区别 * 了解扫地机器人的发展历史，理解“路径规划”对扫地机器人的重要意...”为内容创建页面