训练数据和数据集

资讯

含训练数据集、数据确权等 2026年底我国基本建成国家数据标准体系
今天（8日），国家发展改革委、国家数据局、中央网信办等多部门发布《国家数据标准体系建设指南》。
央视新闻
贵阳大数据交易所发布633个人工智能高质量训练数据集
近日，在第七届数字中国建设峰会上，贵阳大数据交易所携手19家数商生态共同发布633个人工智能高质量训练数据集。
天眼新闻
AI训练数据匮乏怎么破？智源研究院开源两个大规模数据集
南都讯记者李玲数据质量决定了大模型的上限，但数据短缺成为制约大模型发展的瓶颈。如何缓解AI公司的数据焦虑？6月14日，第六届北京智源大会上公布了两个数据集：一是千万级高质量开源指令微调数据集，二是开源中英文行业数据集。高质量的指令数据是大模型性能的“养料”。
南方都市报
贵数所上线572个人工智能高质量训练数据集
近日，贵阳大数据交易所以全国首个数据要素登记行业节点DOID为载体，上线572个人工智能高质量训练数据集，首创数据要素行业稀有地图，为人工智能大模型发展精准赋能。
天眼新闻
生成式人工智能训练数据集的著作权风险与规制路径
作者|史泽宇责编|薛应军正文共3394个字，预计阅读需10分钟▼生成式人工智能是基于深度学习等技术预测和生成新内容的人工智能分支，其发展需要算力、算法、数据等关键要素同时推动。从技术逻辑上看，预训练和优化训练中输入的训练数据的数量、质量和类型直接影响生成式人工智能大模型的性能。
澎湃新闻客户端
强对流天气训练数据集智能应用创新挑战活动启动！
01活动介绍近年来气象科技创新取得了一系列重要进展，特别是在人工智能气象预报领域，国内外均取得了显著突破。
中国气象局
AI训练数据集获得首个亿级参数量 “谛听”地震波大模型发布
据新华社成都7月29日电 7月28日，“谛听”地震波大模型在四川成都发布，该大模型由国家超级计算成都中心、中国地震局地球物理研究所以及清华大学联合开发，是首个亿级参数量的地震波大模型。
湖南日报
官方如何为大模型训练提供支持？贵州：以大数据交易所为平台提供高质量训练数据集
21世纪经济报道记者王俊实习生霍凯北京报道7月30日，2024中国国际大数据产业博览会新闻发布会于京召开。
21世纪经济报道
建好AI训练“优质数据粮仓”｜贵阳大数据交易所发布939个高质量数据集
100万张叉车、集装箱、包裹等物流园区对象图像及对象名称的标注数据集，并对单场景目标物、复合目标物的形态比例有严格限定——前不久，面对主动登门的大模型厂商提出的需求，贵阳大数据交易所市场部产品总监李霖泽深知其挑战性，说其难度“如在沙漠里找特定形状沙粒”。
天眼新闻
报告：高质量数据集是支撑大模型训练、应用的关键基础
中国青年报客户端北京6月19日电（中青报·中青网记者贾骥业）6月18日至19日，由中国通信标准化协会主办的“2025数据智能大会”在北京举行。会上，中国信息通信研究院（以下简称“中国信通院”）发布了《数据智能研究报告（2025年）》。
中国青年报
训练成本有望减半，智元开源机器人数据集
12月30日，智元机器人宣布开源 AgiBot World（智元世界）。智元机器人称， AgiBot World是一个汇集百万真实机器人数据的开源数据集。
第一财经
1评论
互联网数据“耗尽”后，高质量训练数据从哪里获得？专家热议
7月28日，2025世界人工智能大会暨人工智能全球治理高级别会议在上海举行。在“大模型治理和有序发展生态分论坛”上，多位专家围绕大模型时代的数据治理与伦理建设，共商人工智能健康发展路径。
南方都市报
1评论

加载更多

在线举报