南都讯 记者李玲 数据质量决定了大模型的上限,但数据短缺成为制约大模型发展的瓶颈。如何缓解AI公司的数据焦虑?6月14日,第六届北京智源大会上公布了两个数据集:一是千万级高质量开源指令微调数据集,二是开源中英文行业数据集。高质量的指令数据是大模型性能的“养料”。
作者|史泽宇责编|薛应军正文共3394个字,预计阅读需10分钟▼生成式人工智能是基于深度学习等技术预测和生成新内容的人工智能分支,其发展需要算力、算法、数据等关键要素同时推动。从技术逻辑上看,预训练和优化训练中输入的训练数据的数量、质量和类型直接影响生成式人工智能大模型的性能。
100万张叉车、集装箱、包裹等物流园区对象图像及对象名称的标注数据集,并对单场景目标物、复合目标物的形态比例有严格限定——前不久,面对主动登门的大模型厂商提出的需求,贵阳大数据交易所市场部产品总监李霖泽深知其挑战性,说其难度“如在沙漠里找特定形状沙粒”。
中国青年报客户端北京6月19日电(中青报·中青网记者 贾骥业)6月18日至19日,由中国通信标准化协会主办的“2025数据智能大会”在北京举行。会上,中国信息通信研究院(以下简称“中国信通院”)发布了《数据智能研究报告(2025年)》。