大模型训练离不开语料库

资讯

两会对话丨黄海清委员：高质量语料数据决定大模型训练效果上限，建议加快明确合理使用规则
“能够助力人工智能实现‘换道超车’的是语料数据……高质量语料数据直接决定了大模型训练效果的上限。”在2025年上海两会期间，上海市政协委员、上海库帕思科技有限公司CEO黄海清在接受澎湃新闻独家专访时表示，未来，行业垂类大模型将成为中国大模型产业的主战场。
澎湃新闻
国产大模型最缺高质语料，这个联盟开源两周获18万下载，“投喂”回报是……
2022年11月，ChatGPT横空出世，带来大模型时代。但训练大模型好比培养孩子，唯有高质量的教育，才有高质量的输出。因此，高质量语料库是大模型产业链关键环节。基于此，今年7月6日，在世界人工智能大会开幕式上，由上海人工智能实验室等单位联合发起的中国大模型语料数据联盟宣布成立。
上观新闻
10评论
训练大模型要小心什么？这场研讨会热议AI语料建设与合规
据中国网络空间安全协会消息，2024年3月2日下午，中国网络空间安全协会人工智能安全治理专业委员会在北京召开“人工智能语料建设与合规”专题研讨会。来自专委会成员单位、律所和相关领域科研机构、企业、社会组织等单位的三十余位代表参会，围绕大模型语料版权、确权的重点议题进行交流。
南方都市报
破解大模型中文语料不足问题，并非毫无办法 | 新京报专栏
更为严谨的并获得反复验证的百科全书式知识信息，才是大语言模型最为可靠的语料库。资料图：高质量中文语料资源短缺限制了我国人工智能技术的发展和创新应用。
新京报评论
工业大模型有“料”了山东启动2025年工业产业数据仓和知识语料库征集
记者今日（2月19日）从山东省工信厅了解到，为加快推动工业领域重点行业数据汇聚流通和创新应用，以“产业大数据+行业大模型”赋能特色优势行业数智化转型，2025年工业领域重点行业产业数据仓和知识语料库征集工作正式启动。
大众新闻-大众日报
17部门：建设高质量语料库和基础科学数据集，支持开展人工智能大模型开发和训练
国家数据局等17部门联合印发《“数据要素×”三年行动计划（2024—2026年）》。
澎湃新闻
加快高质量人工智能中文语料库建设迫在眉睫
人工智能（AI）语料库是汇集大量来自书籍、学术文章、社交媒体等渠道的文本、图片、音频、视频数据集合，是人工智能领域研究和应用的基础数据。目前，国际主流大模型训练语料库以英文语料为主，中文语料占比不超过5%。中文人工智能语料库匮乏制约了我国大模型性能飞跃和技术创新。
中国电子报
大模型“百花齐放” 业界合力“充实”中文语料数据
中新网上海9月8日电 (记者郑莹莹)中国大模型语料数据联盟8日又吸纳了一批新成员，来充实适用于大模型的中文语料数据。中国大模型语料数据联盟由上海人工智能实验室、中国科学技术信息研究所等单位在今年的世界人工智能大会上联合发起成立，致力建设开放型的大模型语料数据生态圈。
中国新闻网
库帕思：专注AI语料，以“数据炼金术” 赋能大模型时代
一台体积接近登机行李箱的语料终端，或许会在不久后给基层医院带来重要赋能。基于其内置的医疗语料库和模型，它有机会成为全科医生的“数字副手”，不仅能完成临床信息录入、病历自动生成，遇到疑难问题时还可以提供专科医生级别的辅助诊断能力。
上观新闻
观察 | 大模型“幻觉”里的算力与数据，谁会先成为“赛点”？
#快消八谈##大模型##英伟达#全球大模型群雄逐鹿，算力最先告急。今年5月29日，英伟达创始人黄仁勋断言，“我们已经达到生成式AI引爆点，从此全世界的每个角落都会有算力需求”。一天后，英伟达市值突破万亿美元，屹立世界之巅。英伟达将世界的目光聚焦在了风云变幻的算力、显卡江湖。
快消八谈
中国网络空间安全协会发布首批中文基础语料库
光明网讯（记者李政葳）新一代人工智能是推动科技跨越发展、产业优化升级、生产力整体跃升的驱动力量。人工智能的快速发展迫切需要高质量、大规模、安全可信的语料数据资源。近日，中国网络空间安全协会人工智能安全治理专业委员会面向社会发布了用于大模型的首批中文基础语料库。
光明网
语料数据如何赋能大模型产业发展？语料运营平台1.0在沪发布
高质量、大规模、安全可信的语料数据资源是AI时代的重要基石。高质量语料数据如何高效供给赋能大模型产业发展？7月6日上午，2024世界人工智能大会语料主题论坛在上海举办。
澎湃新闻
北师大：训练出“AI太炎”古汉语大语言模型，能够高质量完成古典文献释读
3月31日，教育部举行新闻发布会介绍深入贯彻落实《教育强国建设规划纲要（2024—2035年）》，推进语言文字信息化发展情况。会上，北京师范大学党委常委、副校长康震介绍，当前，世界范围内的人工智能技术创新态势和竞争格局加速形成，正在深刻地影响教育的深层次变革。
红星新闻
3评论
用AI探索“数据传承”新范式 “最懂岭南文化”的大模型能让文化“活”起来
羊城晚报记者许张超黄婷提起文化传承发展的实验室，你会想到什么？也许是堆满历史民俗材料的档案馆，也许是非遗代表性传承人的工作室。随着数字化时代来临，问题有了新解。
金羊网
两会深壹度|建好“齐鲁文化大模型”，让齐鲁文化活起来、更火起来
记者李文璇杨璐范佳鹿青松胡玲玲郭辰昊刘志坤吴圣男“实施齐鲁文化基因解码利用工程，建好‘齐鲁文化大模型’，推进一批文化展示体验项目……”省政府工作报告中关于“深入推进文化‘两创’”的内容引发代表委员热议，尤其是齐鲁文化大模型成为“两会热词”。
齐鲁壹点
北京互联网法院审结一起“AI文生图”著作权案
当下生成式人工智能技术引发广泛关注，用户只需要输入一些提示词，AI大模型就可以产出相应的文字、图片、代码等内容。AI生成的内容受著作权法的保护吗？相应权利归属于谁？是否可以随便使用网络上AI生成的内容？
北京日报

加载更多

在线举报