与手机相比,PC 场景的复杂性体现在两方面:
针对这一问题,来自阿里通义实验室的研究员们提出了面向复杂 PC 任务的多模态智能体框架 PC-Agent,可以根据用户指令实现对计算机软件(例如 Chrome,Word,微信等)的自动控制。其主要包括:
git clone https://github.com/X-PLUG/MobileAgent.git
cd MobileAgent/PC-Agent/
# For MacOS
pip install -r requirements.txt
# For Windows
pip install -r requirements_win.txt
python run.py --instruction="Create a new doc on Word, write a brief introduction of Alibaba, and save the document." --api_token='Your GPT-4o API token.'
3 月 15 日上午 11 点,青稞 Talk 第 41 期,阿里通义实验室高级算法工程师张熙,将直播分享《PC-Agent:面向复杂 PC 任务的多模态智能体框架》。
张熙,博士毕业于中科院自动化研究所,目前担任阿里通义实验室高级算法工程师,负责多模态智能体 Mobile-Agent 等工作。在国际顶级期刊和会议 TPAMI/TIP/CVPR/ACM MM/TMM/TCSVT 等发表论文,曾获得 CCL BEST Demo、China MM BEST Paper、VCIP BEST Student Paper、中科院院长奖等,担任多个顶级会议与期刊 Reviewer,并在开源社区 Github 获得 236k star。
PC-Agent:面向复杂 PC 任务的多模态智能体框架
1、PC 场景的复杂性
2、多模态智能体框架 PC-Agent
3、样例展示及应用实践
4、探讨 - 下:Manus/Owl/OpenManus ...
3 月 15 日(周六) 11:00 -12:00
Talk 将在青稞·知识社区上进行,扫码对暗号:" 0315 ",报名进群!
往期推荐
都看到这了,点个关注再走吧🧐~
【免责声明】市场有风险,投资需谨慎。本文不构成投资建议,用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。