阿里云推出两款大规模视觉语言模型 具中英图文识别能力

Qwen-VL和Qwen-VL-Chat是支持中英文语言的视觉语言模型,以阿里云之前开源的通义千问70亿参数模型Qwen-7B为基础语言模型研发,除具备中英文图文识别、描述和问答对话能力,更新增视觉定位和图像文字理解能力。

Qwen-VL及基于这一模型微调的对话模型Qwen-VL-Chat可用于知识问答、图像标题生成、图像问答、文件问答、细粒度视觉定位等多种场景。例如用户可拍下医院楼层导览图,问Qwen-VL Chat「外科在哪层?」、「耳鼻喉科去哪层?」,Qwen-VL会根据图片讯息给出文字回复。

为进一步助力AI技术普惠,全球学术、研究及商业机构均可免费获取上述模型的代码、模型权重和文件。对于商业应用需求,月活跃用户少于1亿的公司可免费使用模型,用户数超过该量级的企业可向阿里云申请许可证。