财联社
财经通讯社
打开APP
百度回应文心一言文生图“套壳”质疑:为完全自研的大语言模型
亚洲视觉科技研发总监陈经表示,百度的画图AI采用了英文标注的开源图片素材进行训练,因此需要中翻英来当prompt(提示词)。

《科创板日报》3月23日讯(记者 黄心怡) 百度今日在微博表示,已注意到对文心一言文生图功能的相关反馈,并回应说明如下:

1、文心一言完全是百度自研的大语言模型,文生图能力来自文心跨模态大模型ERNIE-ViLG。

2、在大模型训练中,我们使用的是互联网公开数据,符合行业惯例。大家也会从接下来文生图能力的快速调优迭代,看到百度的自研实力。

百度方面还称,文心一言正在大家的使用过程中不断学习和成长,请大家给自研技术和产品一点信心和时间,不传谣信谣。

早前,有自媒体博主在社交平台发文称,“百度最近推出的那个会画图的人工智能“文心一言”,有套壳、画皮、造假的嫌疑。

上述博主尝试了让文心一言画了许多会产生“中英歧义”词组短语。他发现,输入“鼠标和总线”,文心一言会自动生成“老鼠和公共汽车”。博主认为,这是由于“鼠标”和“总线”的英文是“mouse”和“bus”,文心一言显然对输入的中文进行了机器翻译。

同样的例子还有“一可以豆子”,这并非正常的汉语词组。但文心一言自动生成了“一罐头豆子”的图画。该博主指出,这是由于“一可以豆子”机翻成英语,正是“one can bean”,即一罐头豆子的含义。

经过多次测试后,该博主推断,百度的所谓人工智能,其实是把中文句子机翻成英语单词,然后用国外刚刚开源的人工智能“Stable Diffusion”生成了图画。

对此,有IT业内人士认为,文心一言确实把输入的中文句子,通过机器翻译生成了英语单词。“但这是因为开源的图文数据大部分为英文内容。目前还没有上亿规模中文图文数据集。即使有,也噪声很大,基本不可以用。行业内都是用国外数据集,做中文映射,才导致这样的生成效果。”

亚洲视觉科技研发总监陈经也表示,百度的画图AI采用了英文标注的开源图片素材进行训练,因此需要中翻英来当prompt(提示词)

“目前,全球AI研发有开源的传统,特别是训练数据库,不然大家自己收集图片效率太低了。而且图片是要标注的,这更加大了收集整理图片的难度。所以,百度拿英语标注的图片库进行训练,这也是开源的意义。当前也有中文标准的训练数据,但是少很多。”

陈经分析称,“由于发布时间仓促,百度对于画图AI的中文输入词还没完全搞定,才弄了个简单的中翻英来应对。后续应该会根据用户反馈,把中文的提示词与英文的训练素材更好对应上。”

财联社声明:文章内容仅供参考,不构成投资建议。投资者据此操作,风险自担。
招聘及商务合作
专栏
相关阅读
热门评论
cls-1399532
0
2月前·江苏
360也靠一张嘴胡吹
666踹飞地球
1
2月前·山东
百度硬生生的把chatgpt概念砸下来了
斗酒诗百篇 回复 666踹飞地球:我就笑笑,韭菜就是韭菜
2月前·四川
666踹飞地球 回复 斗酒诗百篇:笑完了吗
2月前·山东
夜乡晨光
1
2月前·山东
百度在AI领域的专利,第一
斗酒诗百篇 回复 夜乡晨光:谁给你的勇气
2月前·四川
金刚经
0
2月前·北京
英文的语料,完全可以把英文预料翻译成中文,然后用中文语料训练呀,百度作假也有可能,曾经历史上也出现不少不光彩的事情。今天阿里的视频生成,试用下,结果视频模糊不清,输入跆拳道的文字描述,出来的像草地。国内基本都打不到可用状态
0
2月前·广东
不传谣,后面证明往往真
cls-1344739
1
2月前·上海
排队申请中,不知道怎么样
徐汇琦哥 回复 cls-1344739:哪里申请
2月前·上海
cls-1864262 回复 徐汇琦哥:官网
2月前·四川
cls-1344739 回复 徐汇琦哥:搜百度文心一言
2月前·上海
cls-1344739 回复 徐汇琦哥:百度文心一言网页
3周前·上海
cls-1819037
2
2月前·IP未知
类GPT大模型的参数是千亿规模的,原始数据库是外文的,肯定没有那么快调教好,国内现在干啥就心浮气躁,抓住点东西就是国产不行……
妘奕 回复 cls-1819037:傻子只会抱怨只会无脑喷,聪明资金在布局,聪明企业在排队合作~
2月前·浙江
林小满同学
3
2月前·上海
支持国产,即使还有这样那样的问题
七地·真名志
0
2月前·江苏
承认不足就是进步的开始。
cls-1769686
0
2月前·江苏
仓促,还没,后续。。。。
77
0
2月前·湖南
这是好事,学习进步的开源高清,总比在内网找糊了的图来训练,要好
迎难而上
0
2月前·广西
颤抖