切换到宽版
  • 58阅读
  • 2回复

[数码讨论]数字中文建设在行动 [复制链接]

上一主题 下一主题
在线huozm32831

UID: 329002

精华: 1097
职务: 超级斑竹
级别: 玉清道君
 

发帖
108664
金币
7038
道行
19523
原创
29308
奖券
17600
斑龄
194
道券
10538
获奖
0
座驾
 设备
EOS—7D
 摄影级
专家级认证
在线时间: 21244(小时)
注册时间: 2007-11-29
最后登录: 2025-04-02
只看楼主 倒序阅读 使用道具 楼主  发表于: 前天 20:06
           为落实《教育强国建设规划纲要(2024—2035年)》,教育部、国家语委、中央网信办近日共同印发《关于加强数字中文建设 推进语言文字信息化发展的意见》(以下简称《意见》),部署应用关键新技术,构建资源数据新体系,实施赋能全局新行动,全力服务教育强国、科技强国和文化强国建设。

  3月31日,教育部召开新闻发布会,介绍推进语言文字信息化发展情况。

明确两步发展阶段

  《意见》提出,加强数字中文建设的理念、政策、行动和项目,将数字中文建设作为服务数字中国建设的重要任务和全面推进语言文字信息化发展的突出重点,全方位释放语言文字在经济社会发展中的数据要素价值,着力推进中文数字化与数据中文化,着力推进创新应用与规范安全,着力推进新型中文服务体系构建与语言文字治理体系完善。

  《意见》明确两步发展阶段:第一步到2027年,是以数字中文建设为重点的强基示范阶段,形成语言文字信息化推进机制,推动语言文字信息化规范标准、前沿语言技术、优质语言资源、新型语言服务等基础支撑能力显著增强;第二步面向2035年,是全面推进语言文字信息化发展的深化赋能阶段,推动承载中华文化的中文在全球数字空间、网络空间以及生成式人工智能等关键场景中的使用占比和价值引领作用显著提高,实现我国语言文字信息化整体水平位居世界前列。

  教育部语言文字信息管理司司长刘培俊介绍,重点加强数字中文建设主要有以下考虑:一是中文使命任务重大——今后一个时期,中文服务数字中国建设,加大国家通用语言文字推广力度,深化中华优秀语言文化传承,增进语言文明国际交流互鉴等多项重大任务,更加需要中文数字化赋能。二是中文文化内涵丰富——中文承载着中华民族数千年的文明智慧,是中国贡献给世界的重要公共文化产品,更加需要中文数字化传播。三是中文使用范围广泛——中文是世界上使用人数最多的语言,是联合国六种工作语言之一,190多个国家和地区开展中文教学,85个国家将中文纳入国家的教育体系,更加需要中文数字化学习。四是中文数据价值突出——大规模、高质量的中文数据有利于推动中国特色大语言模型创新发展,更加需要中文数字化支撑。

从“信息载体”向“生产要素”转型

  当前,大语言模型技术对大规模高质量语料提出前所未有的需求,赋予了数据中文化新的历史内涵和使命任务。北京大学王选计算机研究所所长汤帜认为,加强数字中文建设将从三个维度推动中文信息处理技术发展进入新阶段。

  一是从重要资源转化为数据要素价值。语言文字将从“静态符号”向“动态数字资产”、从“信息载体”向“生产要素”转型,要重点推动语料库、数据标注与评价等标准的研制,支持文本生成与理解、语言翻译、情感分析等。

  二是从广泛存在聚焦到关键领域应用。语言文字“日学而不察、日用而不觉”,广泛存在于社会生产各个方面。新形势下,语言文字将实现从符号存储到智能建模的质变,要聚焦关键垂直领域建设语料基础设施,构建支持大模型训练的高质量中文数据集。

  三是从基础支撑提高到赋能全局发展。语言文字信息处理技术创新应用正经历从“GB2312字符集”到“万亿参数大语言模型”的范式变革。语言文字将实现与信息技术的深度融合,要形成“技术突破—场景落地—生态繁荣”的良性循环,打造数字化引领品牌,有力服务教育发展、助力科技创新、赋能文化传承、推动产业升级、促进社会进步。

建设高质量的语言文化语料资源

  语料库是加强数字中文建设、推进语言文字信息化发展、推动语言文字高质量发展的基础支撑,也是经济社会信息化建设、数字化赋能和智能化发展的基础要素。

  然而当前,在语言的教育教学和研究领域,虽然有多个语料库,但很多语料库还处于单一文本模式和领域应用阶段,在建设的理念、技术和方法、规模,以及数据多样性、时效性尤其是与人工智能相结合的大规模应用方面还存在不足,难以满足多元化、动态化尤其是智能化的语言数据需求。

  对此,《意见》提出,到2027年初步建成国家关键语料库。刘培俊介绍,启动实施国家关键领域语料库建设计划,在关键学科、重点行业、战略区域、民生期待和社会急需领域,分批建设规范、安全、优质的国家关键语料库。目前,教育部、国家语委已经支持建设了30余项关键领域的语料库。

  据介绍,国家关键领域语料库建设立足人工智能时代大背景,突破传统语料库单一文本模式和领域应用壁垒,以大模型训练及性能评测、智能计算为核心,以新质态、多模态、多语言、大规模、全域性为突出特性,为通用领域和细分领域多场景应用及创新发展提供规范、可信、高质量的语言文化语料资源。
山庄提示: 道行不够,道券不够?---☆点此充值☆
 
  




    
在线jjybzxw

UID: 551814


发帖
139982
金币
54063
道行
1977
原创
2368
奖券
2519
斑龄
32
道券
903
获奖
0
座驾
设备
摄影级
在线时间: 32956(小时)
注册时间: 2008-10-01
最后登录: 2025-04-03
只看该作者 沙发  发表于: 前天 20:16
根据上文提供的信息,教育部、国家语委、中央网信办共同印发的《关于加强数字中文建设 推进语言文字信息化发展的意见》(以下简称《意见》)旨在落实《教育强国建设规划纲要(2024—2035年)》,推动数字中文建设和语言文字信息化发展。以下是该《意见》的几个关键点:

1. 两步发展阶段:
   - 第一步(到2027年):强基示范阶段,形成语言文字信息化推进机制,增强语言文字信息化的基础支撑能力。
   - 第二步(面向2035年):深化赋能阶段,提高中文在全球数字空间、网络空间以及生成式人工智能等关键场景中的使用占比和价值引领作用,使我国语言文字信息化整体水平位居世界前列。

2. 数字中文建设的重点考虑:
   - 中文使命任务重大:服务数字中国建设,推广国家通用语言文字,传承中华优秀语言文化,增进国际交流互鉴。
   - 中文文化内涵丰富:中文承载着中华民族数千年的文明智慧,是中国贡献给世界的重要公共文化产品。
   - 中文使用范围广泛:中文是世界上使用人数最多的语言之一,190多个国家和地区开展中文教学。
   - 中文数据价值突出:大规模、高质量的中文数据有利于推动中国特色大语言模型创新发展。

3. 从“信息载体”向“生产要素”转型:
   - 推动语言文字从静态符号向动态数字资产转型,重点推动语料库、数据标注与评价等标准的研制。
   - 聚焦关键垂直领域建设语料基础设施,构建支持大模型训练的高质量中文数据集。
   - 形成技术突破—场景落地—生态繁荣的良性循环,打造数字化引领品牌。

4. 建设高质量的语言文化语料资源:
   - 语料库是加强数字中文建设的基础支撑,也是经济社会信息化建设、数字化赋能和智能化发展的基础要素。
   - 到2027年初步建成国家关键语料库,分批建设规范、安全、优质的国家关键语料库。
   - 国家关键领域语料库建设将突破传统语料库的局限,提供规范、可信、高质量的语言文化语料资源。

这些措施将有助于推动中文在全球范围内的数字化发展,增强中文在数字经济和文化交流中的影响力。
如何不发帖就快速得到金币道行
 
在线姜谷粉丝

UID: 1569053

精华: 2
级别: 玉清道君

发帖
125570
金币
93564
道行
20019
原创
753
奖券
43
斑龄
0
道券
0
获奖
0
座驾
设备
摄影级
在线时间: 13289(小时)
注册时间: 2012-06-21
最后登录: 2025-04-02
只看该作者 板凳  发表于: 前天 21:39
“数字中文建设在行动”情况介绍
为落实《教育强国建设规划纲要(2024 - 2035 年)》,教育部、国家语委、中央网信办近日共同印发《关于加强数字中文建设 推进语言文字信息化发展的意见》(以下简称《意见》),全面部署数字中文建设相关行动,以服务教育强国、科技强国和文化强国建设。

已有基础
党的十八大以来,我国语言文字信息化建设持续加强,取得了诸多成果,为数字中文建设奠定了坚实基础:

扩充技术标准:会同有关部门推动研制并发布 100 多项国家通用语言文字和民族语言文字信息化规范标准,为自然语言处理技术在多领域的应用创新奠定规范基础。
开展技术研发:清华大学、北京大学、哈尔滨工业大学等高校开展语言文字信息技术深度研发,促进中文信息互联互通,如北京大学王选计算机研究所建成中华精品字库。
构建资源体系:建成世界最大规模的语言资源库和中国语言资源知识图谱,多模态集成 120 多种语言和方言资源。
布局模型应用:聚焦关键领域需求,试点建设一批自主安全可控的大语言模型,如北京师范大学古汉语大语言模型已上线。
升级测试方式:全面实现从人工到智能的普通话测试方式转变,制发电子证书 9000 多万份,广东省建成全国首个普通话水平测试智慧考场。
建设学习资源:开通国家智慧教育平台语言服务栏目,建成国家通用语言文字学习平台,汇聚 8000 多项学习资源,打造多个经典资源库。
规范数字语言:发布相关规定规范信息技术产品研发,会同有关部门开展专项行动规范网络语言文字使用。
推动资源共享:建成多个语料库和规范标准课程库等,上线多个服务平台和数字博物馆展区,指导开展云端学习课程平台。
推进传承传播:通过数字赋能让文物和古籍里的文字活起来,建成相关数据库并开展多语种数字版权合作,建成全球中文学习平台并提供大量在线课程。
支持科研攻关:发布百余项科研成果,设立多个科研机构,鼓励高校与企业联合研发语言相关产品。
行动目标
2027 年强基示范阶段
国家数字中文建设行动取得重要成效,语言文字数据要素价值有效释放。基本形成政府主导、部门协同、社会参与、共建共享的语言文字信息化工作机制;基本建成国家语言文字大数据中心,初步建成国家关键语料库和国家战略语言资源信息库存;语言文字信息化规范标准、前沿语言技术、优质语言资源、新型语言服务等基础支撑能力显著增强。

2035 年深化赋能阶段
推动承载中华文化的中文在全球数字空间、网络空间以及生成式人工智能等关键场景中的使用占比和价值引领作用显著提高,实现我国语言文字信息化整体水平位居世界前列。

具体举措
技术创新应用
发挥自然语言处理技术支撑人工智能发展的基础作用,加快领域大语言模型应用试点,确保规范安全并示范应用;研制面向人工智能的语言资源建设、管理、应用标准,特别是语料和数据质量评价标准等。

数据资源建设
发挥语言文字服务国家语言能力建设的战略作用,重点支持建设大规模中文语料库及高质量民族语言文字语料库、手语盲文语料库、行业领域语料库、语言监测动态语料库等,实施国家关键语料库建设计划

关键领域赋能
发挥信息技术赋能国家语言服务体系构建的全局优势,研制大语言模型能力素养框架(师生版),推进甲骨文数字化共享,实施中华文化优秀课程多语种数字化传播计划等。同时,支持生成式人工智能的语料规范性、生成内容评测评价和全流程追溯机制研究。

保障措施
在语言信息资源的标准建设、人才培养、安全规范、创新机制等领域加强保障,重点提升语言文字信息化和数字中文建设的基础保障能力。鼓励一地一策、一校一品制定数字中文建设计划,支持创建试验区和示范点
如何不发帖就快速得到金币道行
 
我有我可以
快速回复
限120 字节
认真回复加分,灌水扣分~
 
上一个 下一个