“能够助力人工智能实现‘换道超车’的是语料数据……高质量语料数据直接决定了大模型训练效果的上限。”在2025年上海两会期间,上海市政协委员、上海库帕思科技有限公司CEO黄海清在接受澎湃新闻独家专访时表示,未来,行业垂类大模型将成为中国大模型产业的主战场。
2022年11月,ChatGPT横空出世,带来大模型时代。但训练大模型好比培养孩子,唯有高质量的教育,才有高质量的输出。因此,高质量语料库是大模型产业链关键环节。基于此,今年7月6日,在世界人工智能大会开幕式上,由上海人工智能实验室等单位联合发起的中国大模型语料数据联盟宣布成立。
据中国网络空间安全协会消息,2024年3月2日下午,中国网络空间安全协会人工智能安全治理专业委员会在北京召开“人工智能语料建设与合规”专题研讨会。来自专委会成员单位、律所和相关领域科研机构、企业、社会组织等单位的三十余位代表参会,围绕大模型语料版权、确权的重点议题进行交流。
记者今日(2月19日)从山东省工信厅了解到,为加快推动工业领域重点行业数据汇聚流通和创新应用,以“产业大数据+行业大模型”赋能特色优势行业数智化转型,2025年工业领域重点行业产业数据仓和知识语料库征集工作正式启动。
人工智能(AI)语料库是汇集大量来自书籍、学术文章、社交媒体等渠道的文本、图片、音频、视频数据集合,是人工智能领域研究和应用的基础数据。目前,国际主流大模型训练语料库以英文语料为主,中文语料占比不超过5%。中文人工智能语料库匮乏制约了我国大模型性能飞跃和技术创新。
中新网上海9月8日电 (记者 郑莹莹)中国大模型语料数据联盟8日又吸纳了一批新成员,来充实适用于大模型的中文语料数据。中国大模型语料数据联盟由上海人工智能实验室、中国科学技术信息研究所等单位在今年的世界人工智能大会上联合发起成立,致力建设开放型的大模型语料数据生态圈。
一台体积接近登机行李箱的语料终端,或许会在不久后给基层医院带来重要赋能。基于其内置的医疗语料库和模型,它有机会成为全科医生的“数字副手”,不仅能完成临床信息录入、病历自动生成,遇到疑难问题时还可以提供专科医生级别的辅助诊断能力。
#快消八谈##大模型##英伟达#全球大模型群雄逐鹿,算力最先告急。今年5月29日,英伟达创始人黄仁勋断言,“我们已经达到生成式AI引爆点,从此全世界的每个角落都会有算力需求”。一天后,英伟达市值突破万亿美元,屹立世界之巅。英伟达将世界的目光聚焦在了风云变幻的算力、显卡江湖。
光明网讯(记者 李政葳)新一代人工智能是推动科技跨越发展、产业优化升级、生产力整体跃升的驱动力量。人工智能的快速发展迫切需要高质量、大规模、安全可信的语料数据资源。近日,中国网络空间安全协会人工智能安全治理专业委员会面向社会发布了用于大模型的首批中文基础语料库。
3月31日,教育部举行新闻发布会介绍深入贯彻落实《教育强国建设规划纲要(2024—2035年)》,推进语言文字信息化发展情况。会上,北京师范大学党委常委、副校长康震介绍,当前,世界范围内的人工智能技术创新态势和竞争格局加速形成,正在深刻地影响教育的深层次变革。
记者 李文璇 杨璐 范佳 鹿青松 胡玲玲 郭辰昊 刘志坤 吴圣男“实施齐鲁文化基因解码利用工程,建好‘齐鲁文化大模型’,推进一批文化展示体验项目……”省政府工作报告中关于“深入推进文化‘两创’”的内容引发代表委员热议,尤其是齐鲁文化大模型成为“两会热词”。
当下生成式人工智能技术引发广泛关注,用户只需要输入一些提示词,AI大模型就可以产出相应的文字、图片、代码等内容。AI生成的内容受著作权法的保护吗?相应权利归属于谁?是否可以随便使用网络上AI生成的内容?