切换到宽版
  • 4阅读
  • 1回复

[数码讨论]谷歌又一张“王牌”发布!网友玩疯了 [复制链接]

上一主题 下一主题
在线jjybzxw

UID: 551814

 

发帖
204665
金币
556482
道行
2004
原创
2435
奖券
3180
斑龄
40
道券
1167
获奖
0
座驾
设备
摄影级
在线时间: 45217(小时)
注册时间: 2008-10-01
最后登录: 2025-11-22
只看楼主 倒序阅读 使用道具 楼主  发表于: 3小时前

当地时间11月20日,在用Gemini 3“屠榜”大模型圈后,谷歌又甩出了另一张王牌Nano Banana Pro (Gemini 3 Pro图像),在海内外社交媒体上网友已经玩疯了,从众多一手测试来看这款模型进步依然很大。

谷歌表示,Nano Banana Pro使用Gemini最先进的推理和现实世界的知识,比以往任何时候都更好地可视化信息,比如创建和编辑更复杂的视觉效果、信息图表等等。

具体来看,Nano Banana Pro这次升级有几个重要的方向,一个是更高清,可以2K和4K 高分辨率直出,这对专业用户来说非常重要。此外支持更好更长的文字生成、多语言支持,可直接在图片中完成翻译。在摄影质量上,支持拍摄角度、焦点、色彩的调整。图片比例可以进行1:1到9:16各种调整,以及更好的角色一致性。

第一财经记者进行了两个方向的测试,Nano Banana Pro确实相比上一代进步很多,不过模型在处理一些细节时仍有缺陷。

记者第一次是让Nano Banana 的第一代和现在的Pro分别生成一张未来的新闻编辑部的照片,一个未来的AI机器人绘制杂志的封面,旁边几位专业人士在指导绘画细节,强调未来感、高清、细节。

可以看到Nano Banana生成的杂志图片名称是错误的,并且人物肢体还会有多出的现象。

切换到Nano Banana Pro后,一些细节更真实了,杂志的名字都写对了,并且模型还在左下角加了条形码。不过这两张图片的清晰度仍然不够,这或许是因为免费的原因。

让模型将画面切换成动漫风格。

在官方博客中,谷歌表示可以用多张图像融合,并保持角色的一致性。记者第二次按照这一方向,输入了5张照片,包括4张宠物照片和一张景色,简单提示模型将它们融合在一起。

从输出的图像来看,这一融合是合格的,但仍未超出预期,更像是将几张图抠图拼贴在一起了,角色和场景没有互动,并且其中一张图的角色大改,并没有遵守角色一致性。

记者进一步提示Nano Banana Pro,让这些角色快乐地玩耍,画面需要生动,但模型给出的答案只是增加了原图中的角色,其他都未有变动。

从记者的测试来看,Nano Banana Pro模型相比上一代有进步,但缺陷仍有,并不像目前业界测试的结果那样出色。不过,模型能力或许也取决于会员充值以及提示词的精确性。

例如,在谷歌给出的示意图里,使用 14 张玩偶图像生成一张图,在精细的提示词下画面融合得非常自然。

有博主用Nano Banana Pro 测试电商图效果,测试的重点是“光影控制”和“材质还原”,他发现模型已经能精准理解“侧逆光”“柔光箱”以及不同材质的反射率。只要提示词足够好,效果已经非常不错,对中小卖家很友好。

还有网友让模型生成一些关于ITF跆拳道的说明。他表示,效果相当不错,“它是第一个真正能区分ITF跆拳道道服和奥运跆拳道道服的模型。甚至连标志都自动修正了。”

在当前的用户政策上,谷歌给出了几个选择。面向消费者和学生,在 Gemini 应用中选择“创建图像”并使用“思考”模型,就能体验 Nano Banana Pro。免费用户将获得有限的免费配额,用完后将恢复到原有的 Nano Banana 模型。而Google AI Plus、Pro 和 Ultra 订阅用户可获得更高的配额。

开发者和企业则是可以在Gemini API 和 Google AI Studio 以及 Google Antigravity 中使用,用于创建丰富的 UX 布局和模型。

就在今年8月,谷歌发布了第一代Nano Banana(Gemini 2.5 Flash Image模型),在当时迅速登顶多个主流图像排行榜,成为新晋性能冠军。同时由于模型能够将人物照片变成“3D打印手办”,短时间内形成全球范围内的破圈效应。

在此前的媒体沟通会上,谷歌Gemini App的产品管理副总裁克里斯·斯特鲁哈尔(Chris Struhar)提到,Gemini应用的月活用户数在短短1个季度内,就从4.5亿暴增至6.5亿,其中一个关键因素是Nano Banana带来的病毒式传播效应,尤其是在泰国、印度尼西亚、印度等国家,这是一款非常成功的产品。

从当前的用户反馈看,此次升级的Nano Banana Pro或许会延续上一代的热度,并且在图像专业领域有更深入的应用。

伴随着近日新模型的发布,谷歌的股价也在这几天履创历史新高,就在昨夜,谷歌一度大涨超3%,总市值达到3.65万亿美元,超过微软进入美股总市值前三。随着昨夜美股科技板块的大跌,最终谷歌收跌于289.45美元/股,总市值3.49万亿美元。不过,今年以来谷歌股价涨幅仍超过50%。

(本文来自第一财经)

山庄提示: 道行不够,道券不够?---☆点此充值☆
 
在线jjybzxw

UID: 551814


发帖
204665
金币
556482
道行
2004
原创
2435
奖券
3180
斑龄
40
道券
1167
获奖
0
座驾
设备
摄影级
在线时间: 45217(小时)
注册时间: 2008-10-01
最后登录: 2025-11-22
只看该作者 沙发  发表于: 3小时前
谷歌NanoBanana Pro图像生成模型深度解析:进步、缺陷与市场影响

一、NanoBanana Pro核心升级亮点
谷歌于当地时间11月20日发布的NanoBanana Pro(基于Gemini 3 Pro图像模型)在海内外社交媒体引发热议,其核心升级方向显著提升了图像生成的专业性和实用性:

1. 超高分辨率支持  
   首次实现2K和4K高分辨率直出,突破了前代1024×1024的限制。这对于专业用户(如设计师、摄影师)至关重要,尤其在电商产品图、印刷品等领域,高清晰度直接提升了商用价值。

2. 强化文字生成与多语言翻译  
   - 文字渲染精度大幅提升,能生成清晰可读的短标语乃至长段落,支持更丰富的字体、纹理和书法风格。  
   - 实现图片内直接翻译功能,可将外文内容(如漫画对话、产品标签)实时翻译成目标语言并自然嵌入,解决了跨语言图像本地化的痛点。

3. 摄影级参数控制  
   用户可精细调整拍摄角度、焦点、色彩饱和度等参数,模拟不同摄影设备的效果。图片比例支持1:1到9:16等多种常见格式,适配手机、平板、网页等多场景需求。

4. 角色一致性与多图融合  
   官方宣称可在融合多张图像时保持角色一致性,最多支持14张图像融合。这一特性在创作连贯故事、角色动画或场景扩展时尤为实用。

二、实测对比:进步与现存缺陷

进步显著的案例
1. 细节准确性提升  
   第一财经记者在“未来新闻编辑部”测试中发现,NanoBanana Pro生成的杂志封面名称正确,并新增了条形码等专业元素,而前代存在名称错误和人物肢体异常的问题。这表明模型在文本理解、物体识别和细节逻辑上有了质的飞跃。

2. 专业领域细分能力  
   - 电商应用:博主测试显示,模型能精准理解“侧逆光”“柔光箱”等专业术语,并准确还原金属、布料等不同材质的反射率,对中小卖家制作商品图极为友好。  
   - 垂直领域知识:网友测试生成ITF跆拳道说明时,模型首次成功区分ITF道服与奥运跆拳道道服,并自动修正标志细节,体现了对特定领域知识的学习能力。

仍存缺陷与局限
1. 细节处理与清晰度不足  
   免费用户生成的图片清晰度仍有欠缺,可能受限于配额或算法优化。即使付费用户,在复杂场景下(如多人物互动)仍可能出现细节模糊或逻辑矛盾。

2. 多图融合与创意指令响应欠佳  
   记者尝试融合5张宠物照片与1张景色并要求“角色快乐玩耍”,模型仅简单叠加角色,未实现动态互动效果。这表明在复杂创意指令的理解和执行上仍有提升空间。

3. 依赖提示词与会员等级  
   模型能力受提示词精确性和会员充值影响较大。谷歌示例中14张玩偶图像的自然融合需精细提示词,而普通用户若提示不当,效果可能大打折扣。免费配额用尽后将降级为前代模型,限制了长期使用体验。

三、用户体验与市场反响

用户政策与获取方式
- 普通用户:通过Gemini应用的“创建图像”功能使用“思考”模型体验,免费用户享有有限配额,用完后恢复至基础版NanoBanana。  
- 付费订阅:Google AI Plus、Pro和Ultra订阅用户可获得更高配额。  
- 开发者与企业:可通过Gemini API、Google AI Studio及Antigravity平台集成,用于定制化UX布局和模型开发。

前代产品的成功铺垫
今年8月发布的初代NanoBanana(Gemini 2.5 Flash Image)曾因“3D打印手办”功能迅速登顶图像生成榜单,在泰国、印尼、印度等市场引发病毒式传播。谷歌Gemini应用月活用户从4.5亿激增至6.5亿,充分证明了其市场号召力。此次Pro版升级有望延续这一热度,并向专业领域渗透。

四、对谷歌及市场的深远影响

股价与市值表现
伴随新模型发布,谷歌股价近期屡创新高。尽管昨夜美股科技板块大跌导致谷歌收跌于289.45美元/股(总市值3.49万亿美元),但今年以来涨幅仍超50%。市场对其AI技术的持续投入和商业化前景充满信心。

行业竞争格局
NanoBanana Pro的推出进一步巩固了谷歌在多模态AI领域的领先地位。其在文字渲染、专业参数控制和垂直领域知识上的突破,对Adobe Firefly、MidJourney等竞争对手构成压力,推动整个行业加速技术创新。

未来应用展望
- 教育与科普:自动生成信息图表、科学原理可视化(如太阳能发电流程、细胞结构)。  
- 创意产业:简化漫画创作、影视分镜设计、虚拟试衣等场景。  
- 中小企业赋能:降低电商图制作、品牌宣传材料设计的成本和技术门槛。

五、总结
NanoBanana Pro无疑是谷歌在图像生成领域的又一里程碑式产品。它通过高分辨率支持、强化的文字处理能力和专业参数控制,显著提升了AI作图的实用性和专业性。尽管在细节处理和复杂创意指令响应上仍有改进空间,但其进步幅度和市场潜力不容小觑。随着用户基数的扩大和应用场景的深化,NanoBanana Pro有望在消费级市场和专业领域双线发力,继续推动AI生成内容(AIGC)的普及与革新。对于普通用户而言,这款工具无疑降低了创意表达的门槛;对于企业,则提供了高效且低成本的内容生产解决方案。
如何不发帖就快速得到金币道行
 
快速回复
限120 字节
认真回复加分,灌水扣分~
 
上一个 下一个