图灵团队今天正式公布了 Turing Bletchley v3,一个可理解90多种语言的视觉模型。该模型去年秋天在内部发布,现已应用在微软多个产品线,它同时是 Bing Chat 的眼睛、识图搜索引擎、Xbox 玩家头像审核。
Turing Bletchley v3 可以接受图像和文本输入,给它一个富士山的照片,它知道这是"Mount Fuji"或"富士山"而不是一只"猫",相关的"嵌入词"在它的向量空间中紧密关联。它甚至可以识别照片中家具的材质与你的着装细节。
Turing Bletchley 的 v1 版本在两年前面世,因为 v3 版本的出色性能图灵团队直接跳过了 v2 版本的发布。人类评价 v3 使图像-答案对的相关性提高了9个点,图像搜索后的点击率提高了6%以上,文本查询图像的 DCG (衡量搜索引擎算法的常用指标) 提高了约0.76。
赞(13)