首页 > 社交 > 科普中国

AI科学语言大模型火了,数学生物样样行,编代码写综述也不在话下

常驻编辑 科普中国 2022-11-16 模型   数学   代码   科学   讲稿   不在话下   蛋白质   学科   语言   生物   功能   数据   论文
sor拜客生活常识网

sor拜客生活常识网

怎么做到的?

GAL能实现这么复杂的功能,就不得不提到它的训练数据集。sor拜客生活常识网

据官方消息,GAL是在一个名为NatureBook的新型高质量科学数据集上进行训练的,这使模型能够使用科学术语、数学和化学公式以及源代码。sor拜客生活常识网

其中包括超过4800万篇论文、教科书和课堂讲稿,还有数百万计的化合物和蛋白质、科学网站以及百科全书等等。sor拜客生活常识网

除此之外,为了查找论文并规范化引用,GAL的数据集中包含超过3.6亿条上下文引用和超过5000万条跨不同来源规范化的独特参考。sor拜客生活常识网

有了这么庞大的数据集之后,那接下来便面临两个问题。sor拜客生活常识网

第一个问题是如何管理这些高质量的数据集,实现这点,GAL用了两步:sor拜客生活常识网

  • 所有数据都以一种通用的标记格式进行处理,打通各种来源数据之间的壁垒。
  • 预训练中包含用于特定任务的数据集,这就能保证在处理特定任务时能够更加专业。

还有一个问题是:如何设计界面交互?sor拜客生活常识网

首先就像上文提到的那样,GAL能够支持不同类型的任务。sor拜客生活常识网

因此在设计界面交互时便对各种任务进行分类,不同的分类会支持不同的类型的数据。sor拜客生活常识网

sor拜客生活常识网

既然GAL拥有高度管理和高质量的科学数据集,那和其他模型相比效果如何?sor拜客生活常识网

直接上数据!sor拜客生活常识网

推理方面,GAL的优势脱颖而出,在数学MMLU(大规模多任务语言理解)上,表现要优于Chinchilla,数学方面,表现也优于PalM 540B和GPT-3 175B。sor拜客生活常识网

sor拜客生活常识网

sor拜客生活常识网

尽管,GAL并没有经过一般数据集的训练,但它在BIG-bench上的表现仍旧优于BLOOM和OPT-175B。sor拜客生活常识网

sor拜客生活常识网

看完之后是不是也心痒痒了,先码住再说!sor拜客生活常识网

传送门:
https://galactica.org/
sor拜客生活常识网

参考链接:
[1]https://twitter.com/paperswithcode/status/1592546933679476736

[2]https://github.com/paperswithcode/galai
[3]https://galactica.org/static/paper.pdfsor拜客生活常识网

— 完 —sor拜客生活常识网

量子位 QbitAI · 头条号签约sor拜客生活常识网

关注我们,第一时间获知前沿科技动态sor拜客生活常识网

相关阅读:

  • 3d打印软件有哪些(3d打印模型素材下载)
  • 评价模型有哪些(5种常用的分析方法)
  • 驾模要多久(做牙模型需要多久)
  • 数据挖掘实例及数据分析流程,数据挖掘的概念与过程
  • 人工智能与动物对话
  • 改变世界的发明32丨DNA双螺旋结构分子模型
  • 氧化锌的蚀刻模型
  • 白癜风原创突破背后:一部历时六年的“失败简史”
  • 数字孪生城市,提升城市高效运营管理,推动智慧城市建设
  • 科学家建立仿真模型以研究大质量恒星在塑造周围环境中
    • 网站地图 |
    • 声明:登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。文章内容仅供参考,不做权威认证,如若验证其真实性,请咨询相关权威专业人士。