随着GPT-4o的推出,AI识别技术似乎正在逐步实现对万物的识别。
1
在大模型出现之前,已经有很多图片识别的产品,比如形色植物识别、习题识别、鸟类识别等应用,都在市场上获得了不少用户。
个人比较喜欢的形色,诞生于2015年,创始人陈明权因无法回答孩子关于植物的问题,萌生了开发一款植物拍照识别软件的想法。形色的产品利用人工智能技术快速识别植物,并搭建社交平台,让用户可以交流植物知识。
形色通过收集用户上传的图片和数据,不断优化其识别算法。在最初的时候,形色仅有200种花品,且准确率低。但随着技术的迭代,形色在2016年7月获得苹果App Store版首推后一年半左右时间内,用户从1万增长到了近900万。这些用户的获取基本上是靠来自用户、微博大V推荐,口口相传。
现在,"形色"已经掌握了1.2亿的图片数据量,是全球最大的植物图片数据库。
形色的技术实现基于图像识别及检索,通过提取图片特征并进行搜索匹配来输出结果。形色团队在训练数据集上投入了大量时间和资源,通过不断收集用户上传的图片进行算法迭代训练,从而提高识别准确率。具体包括:
- 形色采用了深度卷积神经网络进行图片分类和检索,并结合人工辅助来应对算法失灵的情况,提供更灵活的技术方案。
- 形色在技术细节上进行了优化,如对上传图片进行预处理,包括光线调整、颜色反转、曝光度调整和裁剪等,以提升照片质量并减少误判。
- 形色注重用户的反馈,通过用户上传的图片不断优化算法,提高识别准确率,并通过人工鉴定来辅助算法,减少误判。
事实上,大模型出现前的AI识别技术,都是这一套逻辑,利用深度卷积神经网络进行图片分类和检索。
2
最近,AI学习辅助应用在海外大火。这其中有Answer.AI,以及字节跳动的Gauth。新一批的AI辅助学习应用都是基于大模型技术来识别并解答多科目问题,它们允许用户拍照上传试题并获取答案和解题步骤。
他们的出现,打破了从2013年上线的猿题库等在习题识别领域深耕多年产品的领先地位。
相比于猿题库结合了OCR技术、自然语言处理、题库匹配、深度学习和多模态学习等多年技术的积累,新一批的AI学习辅助应用在大模型的加持下,实现方式更快了,并不需要比如题库和在线教师资源等技术积累。而且,并不需要一个科目一个科目的扩展,而是可以一次性将解答科目扩展到全科。
最后,大模型加持下的产品在解题品类中能带来全新体验。比如Answer.AI在解题之后引导交互的设计,用户可以查看类似题目、AI自动归纳的知识点以及推荐相关解题视频(视频来源于YouTube)。
3
在这次AI浪潮后,各大公司和研究机构在图像识别领域取得了显著的进展。一些大型预训练模型,如VGG、ResNet、Inception和EfficientNet等,已经在图像分类、目标检测和语义分割等任务上取得了很高的准确率。这些模型在很多场景下的表现已经与人类相当,甚至在某些特定领域超过了人类。
与上一代的形色、习题识别等产品相比,大型预训练模型具有以下优势:
- 强大的泛化能力:大型预训练模型在大量数据上进行训练,使其能够适应各种不同的任务和场景。这意味着它们可以在各种类型的图片识别任务中表现出色,包括植物识别(如形色应用)和习题识别。
- 高准确率:大型预训练模型在各种图像识别任务上的准确率已经达到了很高的水平。例如,在ImageNet图像分类竞赛中,顶级模型的准确率已经超过90%。这表明这些模型在处理复杂图像时具有很强的能力。
- 持续改进:随着研究的深入和技术的发展,大型预训练模型的性能将不断提高。这将使得它们在各种应用场景中的表现更加出色。
- 多模态能力:如GPT-4可以处理图像和文本输入,扩展了应用范围。
当然,大型预训练模型在某些特定领域也存在局限性。例如,对于非常专业的领域知识或者特定场景的需求,可能需要定制化的模型和算法来满足需求。在这种情况下,形色、习题识别等产品可能针对特定任务进行了优化,从而在特定领域内具有更高的准确率。
总之,大型预训练模型在图像识别领域具有很高的性能,可以与形色、习题识别等产品相媲美。Answer.AI和Gauth等产品便是借助大模型图像识别技术快速崛起,快速缩短与上一代图像识别产品的差距,但在特定场景和任务中,上一代图像识别产品仍具有一定的优势。
4
当然,在图像识别领域,最新的技术突破正在重塑我们对AI能力的认知。传统的卷积神经网络(CNN)虽然仍在广泛使用,但新兴的技术正在推动这一领域向前发展。
由OpenAI推出的GPT-4V,已经成了很多开发者首选的大模型。目前,真正限制我们的是我们如何结合场景来运用技术。
一种方式是去发现新场景。前段时间,食物热量识别的"胃之书",结合大家关注的形体,收到了不少朋友的喜爱。然后有人想出了根据照片配诗句,这样浪漫的想法。
以及:
- 识别建筑物、景观,提供历史文化背景,推荐路线,多语言支持
- 商品识别,价格比较,成分分析,个性化推荐
- 作物识别,病虫害诊断,生长状况分析,收成预测
- 面相识别
- 城市建筑与道路识别
另一种方式,便是通过大模型颠覆现有产品,上面学习辅助应用便是最好的例子。市场已经存在,用户需求明确,只需要对现成的产品改进与优化。例如:
- 智能植物识别+园艺指导:不仅识别植物,还提供个性化的种植建议、病虫害处理等。
- 高级鸟类观察助手:结合地理位置、季节、天气等信息,提供更丰富的鸟类生态知识。
- 衣服识别+3D形象:不仅识别衣服款式和价格,还将衣服建模,让3D版的自己可以直接穿上衣服。
当然,可能性还有很多,但不管哪种方式,可能的路径都是以大模型快速切入赛道,再以专门模型来解决特殊问题。在未来,大模型与专门模型的结合会成为趋势。
又或者,采用端到端的特殊大模型,解决某个领域的所有问题,就像特斯拉FSD做到那样。
5
移动互联网时代,视频成了最主流的消费方式。摄像头也成了最技术的设施。那么,AI时代下,图像识别可能是最有可能被深挖的功能了。当然,最终的可能是:摄像头(图片识别)+录音(语音识别与交互)+设备的集合体,主宰着我们新的生活方式。