似一科技
用户6565
添加快捷方式
分享
PPT 测评结果 - 8.18
输入“/”快速插入内容
PPT
测评结果 - 8.18
用户6565
用户718
用户290
用户2690
2025年8月14日创建
评测结果
评测介绍
评测集
•
覆盖场景
◦
商务汇报
▪
企业内部会议、季度总结、年度报告等,常用 PPT 展示数据、分析和结论。
▪
项目路演、产品发布会,用 PPT 直观表达方案和亮点。
◦
市场营销
▪
市场推广、品牌宣传、客户提案等,用 PPT 展示产品优势和市场策略。
◦
学术交流
▪
学术会议、论文答辩、研究成果展示,PPT 用于结构化表达观点和数据。
◦
教育教学
▪
教师用 PPT 展示课程内容,帮助学生理解知识点。
▪
学生用 PPT 进行课题汇报、作业展示。
◦
个人展示
▪
求职简历、个人作品集、兴趣分享等,用 PPT 展现个人能力和经历。
•
部分
题目
包含参考资料
题目列表
评测标准
评估目前各类 Agent 产品的能力,是一件非常复杂的事情。
拿 PPT 生成举例,我们尝试构建过 Benchmark、Arena 等方式进行盲测,但由于产品的差异性细节实在太多,评估 PPT 质量的维度也非常多样,想要做到结果公平,困难重重。
当下 AI 生成 PPT 的主要流派有两种:
一种是更 Agent 的
,由 LLM 直接生成 HTML 网页版式的幻灯片;
另外一种更模板化的
,是由 LLM 生成大纲,然后挑选相应模板进行填充。
前者对后者来说是降维打击,但当下由于成本、效率和稳定性等原因,经常会出些小问题;后者生成速度非常快,强依赖于文本大模型生成的大纲本身和提供的模板丰富度,用户可以主观的修改大纲,需要主动挑选模板,增加了测评的不确定性。
因此,我们选择仅对前者进行投票制测评,对后者进行全方位测试并做文字式总结。
综合多方面因素考虑,我们选择了一种既能控制成本,又相对客观的方案:
1.
用户访谈后挑选出五大高频 PPT 使用场景,并尽量模拟真实用户需求,在每个场景制作了 5 道题目,总计 25 道;
2.
每道题由来自前者的 6 个不同的 Agent 各自运行 3 轮,总计 450 轮,筛选出每题的 Best Case,共计 150 个;
3.
遴选 20 位资深用户,以公正的态度,通过问卷的方式让他们从每道题的最佳案例中,选出他们认为最优秀的一个,最终据此确定最终排名。
任务分工
👀
Agent 生成 PPT
1.
扣子空间
扣子空间 - PPT
用户290
2.
Manus
Manus
用户718
用户2690
3.
GenSpark
www.genspark.ai
用户718
用户2690
4.
天工 Skywork
(海外)
The Originator of AI Workspace Agentsgents
用户718
用户6565
5.
GLM
https://z.ai/
用户290
50%
👀
模板生成 PPT
1.
WPS AI
WPS AI - PPT
用户290
2.
Canvas AI
www.canva.com
用户290
3.
Gamma
https://gamma.app/
用户290
用户6565
4.
iSlide
iSlide
用户6565
(和咔片 ppt 是同一家,iSlide 里生成的需要去咔片 ppt 里编辑,但会员不共享)
5.
AiPPT
AiPPT
用户6565
50%