月之暗面“Kimi”VS阶跃星辰“跃问”谁更能打？科创板日报记者实测来了

①分别来自月之暗面、阶跃星辰两家创业公司的大模型应用Kimi、跃问火出圈了，记者评测结果显示，它们能力各有千秋。
②长文本技术门槛并不高，大厂也在发力长文本，“长文本大战”正在打响，但长文本真的值得“卷”吗？
③互联网产品的成功，不仅取决于产品的效果，互联网运营能力也至关重要。

《科创板日报》3月28日讯（记者朱凌）近日，两家具有硬核实力的大模型创业企业月之暗面、阶跃星辰的应用“Kimi”与“跃问”火出圈了。《科创板日报》记者对这两位AI“当红”应用选手进行了一场能力评测。

▌长文本理解

据介绍，Kimi、跃问都在长文本处理上有优势。

因此，《科创板日报》记者首先上传了一篇约7万字符的论坛速记，要求Kimi和跃问根据速记概括各位发言人的观点，并提取各位发言人的金句。

Kimi结果

Kimi未按要求对各位发言人的观点进行概括，仅提取出发言人的简介和金句，并对论坛进行了简单的总体性概括。

跃问结果

跃问按要求完成了任务，质量较高，还识别出了圆桌环节，并对圆桌环节进行了单独的概括。

接下来，《科创板日报》记者上传了一本近9万字符的小说《9号的工作》，请Kimi和跃问写读后感。

Kimi结果

跃问结果

Kimi和跃问都很快写了出来，它们都对小说内容进行了概括。比起跃问，Kimi有更多的感想与思考，基本符合读后感的要求。而跃问感想部分偏少，更像是对小说的介绍。

然后，《科创板日报》记者随机找了家最近发布年报的公司，请Kimi和跃问概括年报。

Kimi结果

Kimi回复，其无法直接访问文件或查看图片内容，无法提供年报的具体概括。

跃问结果

跃问从网上找到了财经网站基于该公司业绩快报的资讯，进行了概括，但在概括中称数据和信息来自年报。

记者换了一个问法，请Kimi和跃问解读年报。

Kimi结果

Kimi在上交所官网找到了该公司年报摘要、业绩快报等公告，但未找到年报全文，解读也一般。

跃问结果

而跃问找到的资料仍来自于财经网站基于业绩快报的资讯，但在概括的开头称“年报显示”，结尾写着“数据和信息基于业绩快报”，自相矛盾。解读内容基本就是对业绩的概括，缺少解读性语句。

《科创板日报》记者把该公司年报全文链接提供给Kimi和跃问，再次要求Kimi和跃问解读年报。

Kimi结果

由于年报全文超20万字，即使开启新对话，Kimi仍无法完成该任务。

跃问结果

跃问顺利完成了解读，但解读泛泛而谈。

▌数学计算能力

紧接着，记者要求它们计算该公司2021年-2023年营收复合增长率。

Kimi结果

Kimi在网上找到了相关数据，并计算出了结果。

跃问结果

跃问未进行网络搜索，因此无法进行计算，仅给出了计算公式。

《科创板日报》记者上传了另一家公司的年报，请Kimi和跃问以财联社风格写一篇1500字以内的业绩稿。

Kimi结果

由超出字数限制，Kimi只阅读了前89%，但仍然完成了任务。记者认为Kimi写得马马虎虎，把业绩稿写成流水账式的软文，没有根据公司行业特点对年报进行解读。而且，营收、净利润等关键数据都出现了错误，如该公司去年营收实为5.06亿元，但Kimi写成了50.65亿元。

跃问结果

跃问提示“附件内容超限 20%，请删除部分附件内容” 。

▌网站读取与归纳能力

接下来，《科创板日报》记者要求Kimi和跃问将上海硬科技企业TOP100榜单100家公司的工商注册地址所在的市辖区列成表格。

Kimi结果

这个任务Kimi和跃问的完成度都不高。Kimi只列出3家公司的所在区。

跃问结果

跃问列出了11家公司的所在区。

然后，记者给Kimi和跃问发去了苹果招聘网站地址，要求它们筛选出中国的岗位。

Kimi结果

跃问结果

Kimi和跃问都没有使用网页上的筛选或翻页按钮，只找到了网站第一页仅有的1个在中国的岗位。Kimi额外列出了一个在泰国的岗位，文不对题。

▌逻辑推理

在逻辑能力方面，《科创板日报》记者请Kimi和跃问判断“因为凶手不是背包旅客，而且你不是背包旅客，所以你是凶手。”这句话的逻辑是否正确。

Kimi结果

跃问结果

Kimi和跃问都能发现了这句话是在偷换概念，非背包旅客身份与凶手身份无关，根据给定的前提，不能得出“你是凶手”的结论。

记者继续向Kimi和跃问提问，怎样清洁一个装满食人鱼的水箱而不受到攻击和受伤？

Kimi结果

Kimi未能正确理解题意，利用在网上搜到食人鱼溶液的相关资料，回答了如何用食人鱼溶液清洗晶片、样品的方法，文不对题。

跃问结果

跃问较好地回答了该问题。

在数学能力方面，《科创板日报》记者准备了1道排列组合的问题来考验Kimi和跃问：“某校在教师交流活动中，决定派2名语文教师，4名数学教师到甲、乙两个学校交流，规定每个学校派去3名老师且必须含有语文老师和数学老师，则不同的安排方案有多少种？”。这道题的答案是有12种不同的安排方案。

Kimi结果

Kimi的解题过程很复杂，它得到的结果是42种不同的安排方案，显然它答错了。

跃问结果

跃问解题过程相对简洁，解出了正确答案。

记者决定再用1道计算概率的数学题，来考验Kimi和跃问：“甲、乙两人相约见面，并约定第一人到达后，等15分钟不见第二个人来就离去。假设他们都在10点到10点半的任一时间来到见面地点，则两人能见面的概率是多少？”这道题的答案是0.75。

Kimi结果

Kimi得到的结果是5/243，又答错了，Kimi的数学能力似乎有所欠缺。

跃问结果

跃问得到的结果是0.75，回答正确。

▌编程能力

在编程能力方面，《科创板日报》记者要求Kimi和跃问使用Python制作贪吃蛇游戏。

Kimi结果

跃问结果

Kimi和跃问都给出了代码，经测试，均能成功运行。

在多模态能力方面，《科创板日报》用一张来自百科的上海中心大厦照片来测试Kimi和跃问最基本的识图能力。

Kimi结果

Kimi回复称，它作为文本交互的Al，无法直接查看或分析图片内容。

跃问结果

跃问回答出了正确的地点，并对上海中心大厦进行了简洁地介绍。

由于Kimi作为文本交互的Al，在多模态能力有所缺失，记者就不对Kimi和跃问多模态能力进行进一步的对比了，评测也在此告一段落。

▌期待大模型应用百花争艳

这一系列紧张激烈的评测显示，Kimi和跃问能力各有千秋，Kimi在长文本处理、阅读理解等方面实力较强，但数学、多模态等能力有所欠缺，而跃问在长文处理方面可圈可点，逻辑、数学、多模态等方面的表现则更胜一筹。

2024年是大模型落地应用的元年，相信不管是大厂还是大模型创业独角兽，都会不断推出爆款应用抢占市场，争夺用户。我们在期待国内大模型应用不断落地生根，百花争艳，助力千行百业打造新质生产力。《科创板日报》记者将持续关注那些出圈超能力的爆款AI应用。

特别声明：文章内容仅供参考，不构成投资建议。投资者据此操作风险自担。