人工智能(AI)语料库是汇集大量来自书籍、学术文章、社交媒体等渠道的文本、图片、音频、视频数据集合,是人工智能领域研究和应用的基础数据。目前,国际主流大模型训练语料库以英文语料为主,中文语料占比不超过5%。中文人工智能语料库匮乏制约了我国大模型性能飞跃和技术创新。
乘数而上之AI语料新生态·行业破局继国家数据局等17部门联合印发《“数据要素x”三年行动计划(2024-2026年)》之后,中央面向公共数据开发利用的首个顶层设计文件《关于加快公共数据资源开发利用的意见》公布,构建公共数据资源开发利用“1+3”政策规则体系。
来源:环球网 3月22日,上海人工智能实验室(上海AI实验室)联合新华社新闻信息中心、上海外国语大学、外研在线等,发布全新升级的“万卷·丝路2.0”多语言语料库,通过构建多语言开源数据底座,以人工智能赋能“一带一路”高质量建设。在“万卷·丝路1.0”的基础上,2.
上海去年12月印发的人工智能“模塑申城”实施方案指出,到2025年底,力争全市智能算力规模突破100EFLOPS,形成50个左右具有显著成效的行业开放语料库示范应用成果,建设3—5个大模型创新加速孵化器。2月21日至2月23日,2025全球开发者先锋大会将在上海召开。
活动现场。 上海市卫生健康委 供图上海首个卫生健康行业语料库发布,覆盖100多个二、三级专科科目,兼顾常见病、多发病、急难危重症、肿瘤和罕见病等。11月27日,上海市经济和信息化委员会、市卫生健康委员会、上海市疾病预防控制局共同发布上海市首个卫生健康行业语料库。
本文刊载于《中国科学院院刊》2025年第3期"政策与管理研究”李兴腾1* 冯锋2 黄鹂强31 浙江大学 公共管理学院2 中国科学技术大学 管理学院3 浙江大学 管理学院当前,全球人工智能大模型行业竞争日趋激烈,语料库成为提升人工智能大模型技术性能和应用效果的关键。
“到2025年底,建成世界级人工智能产业生态;力争全市智能算力规模突破100EFLOPS;形成50个左右具有显著成效的行业开放语料库示范应用成果;建设3—5个大模型创新加速孵化器,建成一批上下游协同的赋能中心和垂直模型训练场。
【大河财立方 记者 贾永标】6月19日下午,由中国图书进出口(集团)有限公司举办,上海数据交易所、华为阅读等机构联合协办的2024出版与技术创新大会(PubTech Conference)在北京国家会议中心举办。
人民网记者董志雯“2025全球开发者先锋大会”(GDC)将于2025年2月21日至23日在上海举办。近日,人民网上海频道记者参加了由上海市政府新闻办、市经信委联合组织的探营活动,记者随行⾛访了多家参会企业,了解上海在人工智能技术、应用及产业生态构建的实践与探索。
来源:证券日报 AI语料作为训练人工智能算法和模型的核心资源,其重要性随着技术发展与行业渗透持续提升 本报记者 邬霁霞作为人工智能产业链上游的关键基础资源,“AI语料”正迅速成为资本市场新的焦点。A股上市公司也纷纷加快布局,力求在人工智能产业链上游抢占战略制高点。