首页
关于我们
智慧教育
服务支持
解决方案
新闻动态
投资者关系

新闻动态

你的位置:开云·kaiyun(中国)体育官方网站 登录入口 > 新闻动态 > 开yun体育网提供多谈话语料库等举措-开云·kaiyun(中国)体育官方网站 登录入口

开yun体育网提供多谈话语料库等举措-开云·kaiyun(中国)体育官方网站 登录入口

发布日期:2025-07-11 06:44    点击次数:56

开yun体育网提供多谈话语料库等举措-开云·kaiyun(中国)体育官方网站 登录入口

  跟着共建“一带沿途”参加高质料发展新阶段,科技蜕变与互助将在其中贯通更重要的作用。上海东说念主工智能实际室(上海AI实际室)通过研发先进数据智能时间开yun体育网,提供多谈话语料库等举措,探索以东说念主工智能赋能高质料共建“一带沿途”。

  1月9日,上海AI实际室连续大模子语料数据定约成员发布了“万卷·丝路”多谈话预磨砺语料库,为多谈话大模子磨砺提供高质料数据撑握。

  “万卷·丝路”首期开源了包含泰、俄、阿、韩、越等五个语种的语料,总领域超1.2TB(单语种均进步150GB),Token总和进步300B,涵盖使用上述语种国度地区的生存、百科、文化、新闻等七大领域数据。

  海量数据+细分领域,合乎万般化盘问需求

  数据是东说念主工智能遑急的基础要道,数据质料是决定东说念主工智能应用才略的重要成分之一。针对多谈话语料库发展不服衡、高质料语料穷苦的盘问近况,上海AI实际室开源了“万卷·丝路”多谈话语料库。当作概述性文本语料库,“万卷·丝路”蚁合了多个国度地区的蚁合公开信息、文件、专利等府上,数据总领域超1.2TB,Token总和进步300B(300 billion),处于海外起头水平。首期开源的语料库主要由泰语、俄语、阿拉伯语、韩语和越南语5个子集组成,每个子集的数据领域均进步150GB。

  基于“书生·浦语”智能标签分类体系,上海AI实际室盘问团队将每个语料子集细分为7个大类和32个小类,掩盖历史、政事、文化、房产、购物、天气、餐饮、百科、专科常识等多类具有谈话地点地特征实质,便于盘问者凭证具体需求检索数据,并可合乎不同盘问领域万般化需求。

image

  “万卷·丝路”语料库子集分类(野心7个大类、32个小类,图表中仅展示了部分标签)

  大众标注+数据智能,兼顾安全与质料

  “万卷·丝路”语料库通过大众东说念主工标注,建造了包含七个维度的文本数据质料评估体系,从好意思满性、灵验性、可强健性、运动性、关系性、一样性和安全性等方面保险数据的高尺度与高质料。

  通过使用基于大谈话模子的数据质料评估开源器具——Dingo,盘问团队从多维度对“万卷·丝路”的数据质料进行了全面评估。效果标明,其五个子集均获取优异的概述评分,显赫优于同类谈话语料库。

image

  为充分体现多谈话特色、全面进步数据质料与适用性,贯通实际室起头的数据处治才略上风,盘问团队为“万卷·丝路”联想一套精确化数据处治经由:

  1、对网页及非网页数据进行尺度化处治,结伙数据体式,然后哄骗局部明锐哈希算法高效去重,裁减冗余;

  2、在安全性处治上,建立域名黑名单筛除不良网页数据,构建多谈话特色明锐词表并逢迎语境评估,精确过滤无益实质,同期磨砺谈话安全模子,进行多维度不良实质检测和筛选;

  3、利用主题分类器对数据进行分类,优化常识域差异;

  4、通过PPL(困惑度)初筛快速剔除低质料数据,再借助基于BERT的质料分类模子精确筛选高质料实质。

  该经由灵验交融多谈话特质与行业通识时间,为多谈话模子磨砺提供了高质料、安全可靠的数据基础。

image

  万卷·丝路数据处治经由

  为评估“万卷·丝路”数据集质料,盘问团队采样了部分“万卷·丝路”数据在开源基座上进行延续预磨砺,实际效果涌现,使用“万卷·丝路”后,模子在多谈话实质强健及推理才略上的推崇均获取了进步。

  大模子语料数据定约

  由上海东说念主工智能实际室连续中央播送电视总台、东说念主民网、国度阵势中心、中国科学时间信息盘问所、上海报业集团、上海文广集团等10家单元连合髻起。为应答大模子发展对高质料、大领域、安全确凿语料数据资源的需求开yun体育网,保险大模子科研攻关及关系产业生态发展,大模子语料数据定约于2023年7月6日寰宇东说念主工智能大会开幕式上书记配置,旨在通过泄露模子磨砺、数据供给、学术盘问、第三方就业等多方面机构,连续打造多常识、多模态、尺度化的高质料语料数据,探索酿成基于孝顺、可握续开动的引发机制,打造海外化、灵通型的大模子语料数据生态圈。



Powered by 开云·kaiyun(中国)体育官方网站 登录入口 @2013-2022 RSS地图 HTML地图