在近日举行的中关村论坛上,数据安全治理与发展论坛举办。论坛上,智源研究院正式发布了中文互联网语料库CCI 2.0(Chinese Corpora Internet,简称 CCI),规模约 500GB,涵盖1.25亿个网页。
来源:环球网 3月22日,上海人工智能实验室(上海AI实验室)联合新华社新闻信息中心、上海外国语大学、外研在线等,发布全新升级的“万卷·丝路2.0”多语言语料库,通过构建多语言开源数据底座,以人工智能赋能“一带一路”高质量建设。在“万卷·丝路1.0”的基础上,2.
乘数而上之AI语料新生态·行业破局继国家数据局等17部门联合印发《“数据要素x”三年行动计划(2024-2026年)》之后,中央面向公共数据开发利用的首个顶层设计文件《关于加快公共数据资源开发利用的意见》公布,构建公共数据资源开发利用“1+3”政策规则体系。
采写丨科技日报记者 龚茜策划丨何屹 房琳琳继去年“百模大战”之后,今年国内大模型产业应用进入爆发元年。然而,大模型产业发展如火如荼的同时,其训练数据规模的增长速度跟不上、语料质量参差不齐,尤其是高质量中文语料短缺的问题日益凸显,成为各方关注焦点。
人工智能(AI)语料库是汇集大量来自书籍、学术文章、社交媒体等渠道的文本、图片、音频、视频数据集合,是人工智能领域研究和应用的基础数据。目前,国际主流大模型训练语料库以英文语料为主,中文语料占比不超过5%。中文人工智能语料库匮乏制约了我国大模型性能飞跃和技术创新。
中证网讯(记者 彭思雨)11月29日,智源研究院联合拓尔思等共建单位发布并开源可信中文互联网语料库(CCI v1.0.0)。该中文互联网语料库数据规模达104GB,语料库时间跨度在2001年1月至2023年11月。
林咏华。【访谈】中国的人工智能,理所当然、天经地义地要“讲中国话”。从语言学层面说,它应该理解中国话的丰富、微妙和深刻,不应该再闹出“胸有成竹”就是胸前长出几棵竹子的笑话;而从价值观层面说,中国的人工智能应该为中国人思考、为中国人服务,这才叫作“讲中国话”。怎样才能做到这一点?
ShanghaiAILab随着共建“一带一路”进入高质量发展新阶段,科技创新与合作将在其中发挥更关键的作用。上海人工智能实验室(上海AI实验室)通过研发先进数据智能技术,提供多语言语料库等举措,探索以人工智能赋能高质量共建“一带一路”。
4月26日,在2024中关村论坛年会上,北京智源人工智能研究院副院长兼总工程师林咏华女士发布中文互联网语料库CCI 2.0成果。从2023年到2024年大模型有了更快的发展,无论从语言模型还是多模态文生视频模型,在训练数据的数据量上都是有了十倍、几十倍甚至上百倍需求的发展。
6月15日,搜狗创始人王小川创立的百川智能正式宣布推出了70 亿参数量的中英文预训练大模型——baichuan-7B。目前baichuan-7B大模型已在Hugging Face、Github以及Model Scope平台发布。
2022年11月,ChatGPT横空出世,带来大模型时代。但训练大模型好比培养孩子,唯有高质量的教育,才有高质量的输出。因此,高质量语料库是大模型产业链关键环节。基于此,今年7月6日,在世界人工智能大会开幕式上,由上海人工智能实验室等单位联合发起的中国大模型语料数据联盟宣布成立。
封面新闻记者 边雪在全球的大模型竞赛中,中国已占有一席之地,而打造开源生态,推动大模型开源生态,已经成为中国业界的主流选择。9月15日,智源研究院发布面向中英文语义向量模型训练的大规模文本对数据集MTP(massive text pairs)。
中新网上海9月8日电 (记者 郑莹莹)中国大模型语料数据联盟8日又吸纳了一批新成员,来充实适用于大模型的中文语料数据。中国大模型语料数据联盟由上海人工智能实验室、中国科学技术信息研究所等单位在今年的世界人工智能大会上联合发起成立,致力建设开放型的大模型语料数据生态圈。
北京日报客户端 | 记者 孙奇茹全球大模型研发进入如火如荼的爆发期,而激烈的竞争与高昂的成本,也同时推动着开源崛起成为人工智能发展的关键推动力量。智源研究院近日在北京人工智能产业峰会发布面向中英文语义向量模型训练的大规模文本对数据集MTP(massive text pairs)。
北京智源人工智能研究院副院长兼总工程师林咏华告诉长江日报记者,中文数据存在“孤岛”问题。自2013年到2024年,11年间的全球主要网站网页内容语言使用历史趋势,中文网页的数量从4.3%下降至1.3%,下降高达70%;中文资讯已越来越“去网页化”,向移动互联网平台高度迁移。
AI语料新生态❸开源筑基 “开源已经成为推动AI技术进步的重要力量”,上海人工智能实验室·大模型语料数据联盟去年联合发布多模态语料库首个开源版本——书生·万卷1.0,目前下载量超过149万人次,通过开源共建包容、开放、有序、共享的AI语料新生态。
名词解释语料数据(Corpus Data)是指用于训练、测试和优化自然语言处理(NLP)模型或人工智能系统的一系列文本或语言数据。这些数据通常以文本形式存在,包括但不限于书籍、文章、新闻报道、对话记录、社交媒体内容、专业文献等。