我的订单|我的收藏|我的商城|帮助中心|返回首页
虚拟现实新闻>VR>行业资讯>行业知识

Agent人工智能在虚拟现实环境中的应用

文章来源:第三维度 作者:Jessica 发布时间:2010年10月11日 点击数: 字号:
定义 Formal Definition

    本文的形式化定义只是以理想理性(Ideal Rational)Agent[16]为例,抛砖引玉,帮助读者对不同类型的Agent形成自己的形式化方法。

    理想理性Agent:

    对每一个可能的感知序列(Percept sequence),她都能基于感知序列和内建的知识提供的证据采取行为,期望性能最优化。Agent由PAGE描述:感知(Percept),行为(Action),目标(Goal),环境(Environment)。

    Agent等于体系构架(Architecture)和程序(Program)。Stuart和Peter提出最基本的骨架Agent程序:

    function SKELETON-AGENT (percept) returns action

    static: memory, the agent’s memory of the world

    memory ← UPDATE-MEMORY(memory,percept)

    action ← CHOOSE-BEST-ACTION(memory)

    memory ← UPDATE-MEMORY(memory, action)

    return action

    而根据程序设计的立足点不同,由简到繁区分成:表格驱动(Table-driven)Agent,简单反射(Simple reflex)Agent,跟踪内部状态的反射Agent (Reflex agent with internal state),基于目标的(Goal-based)Agent,基于效能的(Utility-based)Agent。

    三、会话Agent Conversational Agent

    会话Agent主要在教育培训程序中扮演导师和同学的角色,随时随地供给交流学习的伙伴,增强娱乐性和参与性,极大提高教学效率,也可以在场馆中推广产品,或说明旅游项目。Microsoft Office系列软件的帮助精灵是我们最熟悉的会话Agent。会话Agent具有一般的语言能力,也有一定的声音识别能力,甚至有感情;在虚拟环境中,她常常通过图形具体化(Embodied)。本章将介绍Baldi和Max两个系统,说明如何让Agent表示出表情和嘴形,或手势,进一步加入情感。

    关于会话Agent的更多研究请参考[22][23][24][25]。

    3.1表情和嘴形Facial Expression and Lips

    与一个表情丰富、语言流畅的伙伴交流,无疑是长期在计算机前学习生活的人很吸引的事。

    图3-1所示的Baldi[3][19]曾在上文引述过,是一个由计算机驱动的聊天人头,暂时用于聋哑儿童的课堂语言教学。她的存在和功能完全依赖于计算机动画控制,和文本—语言合成。

Agent人工智能在虚拟现实环境中的应用
图3-1

    她的语言有33个参数:颌旋转和挤压,嘴的水平宽度,嘴唇弯曲和突出控制, 下嘴唇褶皱,嘴唇垂直位置,牙齿的位移,舌头的角度、宽度和长度。

    为了能在低端设备上实时绘制,研究者采用目标相似合成(Terminal Analogue Synthesis)技术,仅令最终结果看起来很像,并没有完全模仿生理结构。大约900个多边形边边相连组成Baldi的眼睛、瞳孔、虹膜、巩膜、眉毛、鼻子、皮肤、嘴唇、舌头、牙齿、脖子。多边形的拓扑结构和动画由一个参数集控制。

    Baldi的研发进展主要在控制参数的增加和修改,舌头的两代实现方式,视觉语言合成控制,文本—语言合成,双模(视觉/听觉)合成,和并行信息处理。最终大概有20000行C代码,可在SGI和PC上实时运行,图3-2是一些结果。

图3-2 Baldi的表情:高兴、生气、吃惊、恐惧、伤心、恶心
图3-2 Baldi的表情:高兴、生气、吃惊、恐惧、伤心、恶心

    3.2 手势 Gesture

    手势是人们自发的无意识的语言表达,是很重要的沟通手段,对多模式(Multi-Modal)会话Agent的具体化最终都需要一套肢体语言的支持,可从真人捕捉,或手动预定义。

    拟人Agent Max[20]是在3D虚拟环境中的装配专家,通过上肢活动和口述的相互协同向用户展示装配过程,图3-3。

图3-3 与Max多模交互
图3-3 与Max多模交互

    Max的多模(Multi-Modal)发言直接由一种基于XML的语言描述,包括语言词句和非语言行为。语句被时间点(Time Point)分隔,特定的手势动作被定义在相应的时间间隔中。手势由发出阶段(Stroke Phrase)的时空特性决定,由子动作组成。

&n

共7页 您在第2页 首页 上一页 1 2 3 4 5 6 7 下一页 尾页 跳转到页 本页共有3124个字符
  • 暂无资料
  • 暂无资料
  • 暂无资料
  • 暂无资料
  • 暂无资料