从 PC 到通用,聊聊 PC-Agent、Manus、Owl、OpenManus ...
2025-05-04 08:14
爆米花独角兽
2025-05-04 08:14
订阅此专栏
收藏此文章

>> 加入青稞 AI 技术交流群,与青年 AI 研究员 / 开发者交流最新 AI 技术

 

 

图片


 

与手机相比,PC 场景的复杂性体现在两方面:

  • • PC 的图形界面包含了更密集多样的可交互元素,以及不同布局的文本;
  • • PC 常用于生产力场景,涉及更多复杂的 App 内及跨 App 工作流。

针对这一问题,来自阿里通义实验室的研究员们提出了面向复杂 PC 任务的多模态智能体框架 PC-Agent,可以根据用户指令实现对计算机软件(例如 Chrome,Word,微信等)的自动控制。其主要包括:

  • • 设计主动感知模块实现对屏幕内容的精细感知和操作;
  • • 提出层次化多智能体协作结构;
  • • 构建了涉及 8 个常用应用的复杂指令集以更好地评估智能体在复杂任务上的表现。

安装使用

  • • 下载代码库
git clone https://github.com/X-PLUG/MobileAgent.git
  • • 进入 PC-Agent 的文件目录下,安装运行 PC-Agent 的环境依赖
cd MobileAgent/PC-Agent/

# For MacOS
pip install -r requirements.txt
# For Windows
pip install -r requirements_win.txt
  • • 运行 PC-Agent
python run.py --instruction="Create a new doc on Word, write a brief introduction of Alibaba, and save the document." --api_token='Your GPT-4o API token.'

3 月 15 日上午 11 点,青稞 Talk 第 41 期,阿里通义实验室高级算法工程师张熙,将直播分享《PC-Agent:面向复杂 PC 任务的多模态智能体框架》。

分享嘉宾

张熙,博士毕业于中科院自动化研究所,目前担任阿里通义实验室高级算法工程师,负责多模态智能体 Mobile-Agent 等工作。在国际顶级期刊和会议 TPAMI/TIP/CVPR/ACM MM/TMM/TCSVT 等发表论文,曾获得 CCL BEST Demo、China MM BEST Paper、VCIP BEST Student Paper、中科院院长奖等,担任多个顶级会议与期刊 Reviewer,并在开源社区 Github 获得 236k star。

主题提纲

PC-Agent:面向复杂 PC 任务的多模态智能体框架

1、PC 场景的复杂性
2、多模态智能体框架 PC-Agent
3、样例展示及应用实践
4、探讨 - 下:Manus/Owl/OpenManus ...

直播时间

3 月 15 日(周六) 11:00 -12:00

参与方式

Talk 将在青稞·知识社区上进行,扫码对暗号:" 0315 ",报名进群!

往期推荐

图片

直播预告!基于 LightLLM 的 DeepSeek R1/V3 模型部署实战

图片

从 DeepSeek-R1,聊聊过程奖励模型在强化学习中的挑战及隐式过程奖励模型 PRIME

图片

Mobile-Agent-V1/V2:基于多模态 Agent 架构的手机智能体

图片

代码实践!如何使用 CAMEL Agents 构建 GraphRAG ?





都看到这了,点个关注再走吧🧐~

【免责声明】市场有风险,投资需谨慎。本文不构成投资建议,用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。

爆米花独角兽
数据请求中
查看更多

推荐专栏

数据请求中
在 App 打开