2023年9月：人工智能魔幻的一月，AI正在加速进化

2023-10-02 MedSci原创 MedSci原创发表于上海

这周是AI历史上最具里程碑意义的一周！从OpenAI到Tesla，再到Amazon和Meta，各大巨头都在这一周展示了他们的最新突破。

9月份应该是AI历史上最具里程碑意义的一个月之一！从OpenAI到Tesla，再到Meta，各大巨头都在这一月展示了他们的最新突破。可以说人工智能正在加速进化! 预期中的通用人工智能，正在呼之欲出! 预计在2024-2025年，人工智能可能会有更多的惊艳表现!

1. OpenAI的多模态能力，语音绘图样样精通

OpenAI震惊全球，宣布ChatGPT现在具有多模态功能，能看（理解图像）、听（理解语音）并与用户互动。

其语音对话的能力，与真人几乎完全一致，有语音，语调，甚至停顿，换气音都存在。

同时，DALL·E 3即将发布！这款由OpenAI推出的AI图像生成工具将改变我们对创意、设计和人工智能的认知。将直接与Midjourney竞争。

DALL・E 3 的最大特点是与 ChatGPT 的集成，它原生构建在 ChatGPT 之上，用 ChatGPT 来创建、拓展和优化 prompt。这样一来，用户无需在 prompt 上花费太多时间。

具体来讲，通过使用 ChatGPT，用户不必绞尽脑汁地想出详细的 prompt 来引导 DALL・E 3 了。当输入一个想法时，ChatGPT 会自动为 DALL・E 3 生成量身定制的、详细的 prompt。同时用户也可以使用自己的 prompt。

至于集成 ChatGPT 后的效果怎么样？OpenAI CEO 山姆・奥特曼兴奋地展示了 DALL・E 3 的连续性生成结果，简直称得上完整的「故事片」。

2. OpenAI的ChatGPT终于可以上网了

ChatGPT重新获得了通过Bing搜索访问互联网上最新信息的能力，这一功能即将扩展到免费版本。

3. OpenAI内部已实现AGI（通用人工智能）？

Sam Altman在Reddit上的一条评论引发了社群的热议。他声称“AGI（通用人工智能）已在内部实现”，尽管这条评论后来被编辑了。几小时后，有消息称OpenAI正寻求以900亿美元的估值筹集资金。

4. Meta的AI更新

Meta发布了一系列AI产品更新，包括将AI应用到所有产品、新的/imagine功能用于图像创建、会话AI角色、AI工作室等

5. Tesla的Optimus机器人

Tesla透露，其人形机器人Optimus现在可以自主分类物体，并且还能做瑜伽。关键是手指的精细动作，越来越接近人类。

在特斯拉的 2022 年人工智能日演讲中，马斯克推出了 Optimus 人形机器人原型，该原型使用特斯拉 Autopilot 系统的人工智能 (AI) 软件和传感器。如果一切按计划进行，马斯克相信开发大规模使用的机器人的成本可能会低于 20,000 美元。

借助特斯拉在人工智能和电动汽车执行器生产方面的专业知识，马斯克的目标是首先在工厂测试这些机器人。与其他人形机器人不同，马斯克强调，Optimus 是为大规模生产和增强功能而设计的。

6.PSYONIC和AvaWatz在精细动作和机器人协作方面独树一帜

PSYONIC 的Ability Hand 是一款市场上的假手，它比传统解决方案提供更多的功能移动性。

它采用创新的仿生技术，模仿肢体丧失者的触觉。它在医疗保险的覆盖范围内，可供许多上肢截肢的美国人使用，并被全球顶级机构用于人形机器人研究。

AvaWatz 利用决策智能来增强机器人协作。其平台将单个机器人转变为协作机器人团队，使企业能够更有效地完成任务，而无需牺牲质量或安全性。

协作机器人擅长完成军事、航空和运输等领域对人类来说过于具有挑战性、危险性或单调的任务。 AvaWatz 的研究得到了美国空军和国土安全部等实体的支持，突破了这些技术界限。随着从无人机到自动驾驶汽车等自主创新的兴起，对提高协作机器人团队效率的平台的需求可能会增长。

简而言之，该公司的平台提高了机器人效率，促进机器人和人类之间的无缝团队合作，塑造自主任务的未来。

虽然 Tesla 人形机器人受到了广泛关注，但 PSYONIC 和 AvaWatz 等低调的公司正在尽自己的一份力量，引领机器人技术得到更广泛的应用。

7.多模态版Llama2上线，Meta发布AnyMAL

来自 Meta 的研究人员近日推出了 AnyMAL（Any-Modality Augmented Language Model）。这是一个经过训练的多模态编码器集合，可将来自各种模态（包括图像、视频、音频和 IMU 运动传感器数据）的数据转换到 LLM 的文本嵌入空间。

为构建多模态 LLM 提出了一种高效、可扩展的解决方案。本文提供了在大型数据集上预先训练的投影层，这些数据集包含多种模态（例如，2 亿张图像、220 万段音频、50 万 IMU 时间序列、2800 万段视频），所有数据集都与同一个大模型（LLaMA-2- 70B-chat）对齐，从而实现了交错式多模态上下文提示。

本文利用跨三种模式（图像、视频和音频）的多模态指令集对模型进行了进一步微调，涵盖了简单 QA 领域之外的各种不受约束的任务。该数据集具有高质量的人工收集指令数据，因此本文也将其作为复杂多模态推理任务的基准。

与现有文献中的模型相比，本文最佳模型在各种任务和模式的自动和人工评估中都取得了很好的零误差性能，在 VQAv2 上提高了 7.0% 的相对准确率，在零误差 COCO 图像字幕上提高了 8.4% 的 CIDEr，在 AudioCaps 上提高了 14.5% 的 CIDEr，创造了新的 SOTA。

8. 上下文长度达3.2万token的LLaMA 2 Long

和竞争对手相比，在指令微调MMLU (5-shot)等测试集上，表现超过ChatGPT。在人类评估（human evaluation）上甚至优于10万token的Claude 2，这个话题还在Reddit上引发了讨论。论文介绍，LLaMA 2 Long使用了4000亿token语料加持下，并进行位置编码修改。在LLaMA 2中，它的位置编码采用的是旋转编码RoPE方法。它是目前大模型中应用最广的一种相对位置编码，通过旋转矩阵来实现位置编码的外推。本质上来说，RoPE就是将表示单词、数字等信息的token embeddings映射到3D图表上，给出它们相对于其他token的位置——即使在旋转时也如此。这就能够使模型产生准确且有效的响应，并且比其他方法需要的信息更少，因此占用的计算存储也更小。

版权声明：
本网站所有内容来源注明为“梅斯医学”或“MedSci原创”的文字、图片和音视频资料，版权均属于梅斯医学所有。非经授权，任何媒体、网站或个人不得转载，授权转载时须注明来源为“梅斯医学”。其它来源的文章系转载文章，或“梅斯号”自媒体发布的文章，仅系出于传递更多信息之目的，本站仅负责审核内容合规，其内容不代表本站立场，本站不负责内容的准确性和版权。如果存在侵权、或不希望被转载的媒体或个人可与我们联系，我们将立即进行删除处理。
在此留言

评论区 (0)

#插入话题

插入图片

下载梅斯医学APP，方便讨论，随时阅读！立即前往下载 >>

内科

外科

专科科室

热点

按科室浏览

临床工具

科研工具

其他工具

科研数智化

真实世界研究解决方案

数字化学术传播解决方案

其它

人工智能

2023年9月：人工智能魔幻的一月，AI正在加速进化

相关资讯

科室

工具

服务