开源中文语料库

资讯

中文互联网语料库CCI2.0开放，打造大模型数据“共建—共享”新模式
在近日举行的中关村论坛上，数据安全治理与发展论坛举办。论坛上，智源研究院正式发布了中文互联网语料库CCI 2.0（Chinese Corpora Internet，简称 CCI），规模约 500GB，涵盖1.25亿个网页。
光明网
多语言语料库万卷·丝路2.0开源，数据模态全面升级，搭建文化交流互鉴AI桥梁
来源：环球网 3月22日，上海人工智能实验室（上海AI实验室）联合新华社新闻信息中心、上海外国语大学、外研在线等，发布全新升级的“万卷·丝路2.0”多语言语料库，通过构建多语言开源数据底座，以人工智能赋能“一带一路”高质量建设。在“万卷·丝路1.0”的基础上，2.
环球网
中文互联网语料库CCI 2.0发布，涵盖1.25亿个网页
4月25日，2024中关村论坛年会开幕。4月27日，在作为本届中关村论坛活动之一的数据安全治理与发展论坛上，北京智源人工智能研究院正式发布了中文互联网语料库CCI 2.0（简称CCI）。
红星新闻
5评论
谁为AI中文语料建设破局？语料联盟与语料库扮演关键角色
乘数而上之AI语料新生态·行业破局继国家数据局等17部门联合印发《“数据要素x”三年行动计划(2024-2026年)》之后，中央面向公共数据开发利用的首个顶层设计文件《关于加快公共数据资源开发利用的意见》公布，构建公共数据资源开发利用“1+3”政策规则体系。
南方都市报
1评论
120G！网安协人工智能安全治理专委会发布首批中文语料库
12月20日下午，中国网络空间安全协会人工智能安全治理专业委员会在京召开发布会，面向社会发布用于大模型的首批中文基础语料库。
南方都市报
大模型发展提速，中文语料够“吃”吗？
采写丨科技日报记者龚茜策划丨何屹房琳琳继去年“百模大战”之后，今年国内大模型产业应用进入爆发元年。然而，大模型产业发展如火如荼的同时，其训练数据规模的增长速度跟不上、语料质量参差不齐，尤其是高质量中文语料短缺的问题日益凸显，成为各方关注焦点。
科技日报
加快高质量人工智能中文语料库建设迫在眉睫
人工智能（AI）语料库是汇集大量来自书籍、学术文章、社交媒体等渠道的文本、图片、音频、视频数据集合，是人工智能领域研究和应用的基础数据。目前，国际主流大模型训练语料库以英文语料为主，中文语料占比不超过5%。中文人工智能语料库匮乏制约了我国大模型性能飞跃和技术创新。
中国电子报
智源研究院联合共建单位发布中文互联网语料库
中证网讯（记者彭思雨）11月29日，智源研究院联合拓尔思等共建单位发布并开源可信中文互联网语料库（CCI v1.0.0）。该中文互联网语料库数据规模达104GB，语料库时间跨度在2001年1月至2023年11月。
中国证券报
智源人工智能研究院副院长兼总工程师林咏华：要让AI“讲中国话”，必须建好中文语料库
林咏华。【访谈】中国的人工智能，理所当然、天经地义地要“讲中国话”。从语言学层面说，它应该理解中国话的丰富、微妙和深刻，不应该再闹出“胸有成竹”就是胸前长出几棵竹子的笑话；而从价值观层面说，中国的人工智能应该为中国人思考、为中国人服务，这才叫作“讲中国话”。怎样才能做到这一点？
长江日报
4评论
多语言语料库“万卷·丝路”发布，AI赋能共建“一带一路”
ShanghaiAILab随着共建“一带一路”进入高质量发展新阶段，科技创新与合作将在其中发挥更关键的作用。上海人工智能实验室(上海AI实验室)通过研发先进数据智能技术，提供多语言语料库等举措，探索以人工智能赋能高质量共建“一带一路”。
金台资讯
2024中关村论坛年会|中文互联网语料库CCI 2.0发布
4月26日，在2024中关村论坛年会上，北京智源人工智能研究院副院长兼总工程师林咏华女士发布中文互联网语料库CCI 2.0成果。从2023年到2024年大模型有了更快的发展，无论从语言模型还是多模态文生视频模型，在训练数据的数据量上都是有了十倍、几十倍甚至上百倍需求的发展。
北青网
百川智能发布开源中英文大模型：可免费商用
6月15日，搜狗创始人王小川创立的百川智能正式宣布推出了70 亿参数量的中英文预训练大模型——baichuan-7B。目前baichuan-7B大模型已在Hugging Face、Github以及Model Scope平台发布。
环球Tech
14评论
国产大模型最缺高质语料，这个联盟开源两周获18万下载，“投喂”回报是……
2022年11月，ChatGPT横空出世，带来大模型时代。但训练大模型好比培养孩子，唯有高质量的教育，才有高质量的输出。因此，高质量语料库是大模型产业链关键环节。基于此，今年7月6日，在世界人工智能大会开幕式上，由上海人工智能实验室等单位联合发起的中国大模型语料数据联盟宣布成立。
上观新闻
10评论
科技观察｜如何推动大模型开源生态？全球最大面向中英文语义向量模型训练数据集发布
封面新闻记者边雪在全球的大模型竞赛中，中国已占有一席之地，而打造开源生态，推动大模型开源生态，已经成为中国业界的主流选择。9月15日，智源研究院发布面向中英文语义向量模型训练的大规模文本对数据集MTP（massive text pairs）。
封面新闻
大模型“百花齐放” 业界合力“充实”中文语料数据
中新网上海9月8日电 (记者郑莹莹)中国大模型语料数据联盟8日又吸纳了一批新成员，来充实适用于大模型的中文语料数据。中国大模型语料数据联盟由上海人工智能实验室、中国科学技术信息研究所等单位在今年的世界人工智能大会上联合发起成立，致力建设开放型的大模型语料数据生态圈。
中国新闻网
全球最大中英文语义向量模型训练数据集发布
北京日报客户端 | 记者孙奇茹全球大模型研发进入如火如荼的爆发期，而激烈的竞争与高昂的成本，也同时推动着开源崛起成为人工智能发展的关键推动力量。智源研究院近日在北京人工智能产业峰会发布面向中英文语义向量模型训练的大规模文本对数据集MTP（massive text pairs）。
北京日报
5评论
破解中文“数据孤岛”还需各方努力
北京智源人工智能研究院副院长兼总工程师林咏华告诉长江日报记者，中文数据存在“孤岛”问题。自2013年到2024年，11年间的全球主要网站网页内容语言使用历史趋势，中文网页的数量从4.3%下降至1.3%，下降高达70%；中文资讯已越来越“去网页化”，向移动互联网平台高度迁移。
长江日报
1评论
语料“超级工厂”助力研发多语言联盟实现“数”“质”齐飞
AI语料新生态❸开源筑基 “开源已经成为推动AI技术进步的重要力量”，上海人工智能实验室·大模型语料数据联盟去年联合发布多模态语料库首个开源版本——书生·万卷1.0，目前下载量超过149万人次，通过开源共建包容、开放、有序、共享的AI语料新生态。
南方都市报
加强语料数据应用赋能未来产业发展
名词解释语料数据（Corpus Data）是指用于训练、测试和优化自然语言处理（NLP）模型或人工智能系统的一系列文本或语言数据。这些数据通常以文本形式存在，包括但不限于书籍、文章、新闻报道、对话记录、社交媒体内容、专业文献等。
澎湃新闻客户端
于无声处响惊雷：DeepSeek横空出世，交通运输行业如何把握时代“智”变机遇？
前言2025开年伊始，科技领域再迎里程碑事件，继ChatGPT引燃全球资本狂潮，开启世界各国AI“军备竞争”以来，大模型技术正逐渐成为引领全行业科技变革、引导科技未来秩序的世界共识。
澎湃新闻客户端

加载更多

视频

在线举报