AI科学语言大模型火了，数学生物样样行，编代码写综述也不在话下

常驻编辑科普中国 2022-11-16 模型数学代码科学讲稿不在话下蛋白质学科语言生物功能数据论文

。

sor拜客生活常识网

怎么做到的？

GAL能实现这么复杂的功能，就不得不提到它的训练数据集。sor拜客生活常识网

据官方消息，GAL是在一个名为NatureBook的新型高质量科学数据集上进行训练的，这使模型能够使用科学术语、数学和化学公式以及源代码。sor拜客生活常识网

其中包括超过4800万篇论文、教科书和课堂讲稿，还有数百万计的化合物和蛋白质、科学网站以及百科全书等等。sor拜客生活常识网

除此之外，为了查找论文并规范化引用，GAL的数据集中包含超过3.6亿条上下文引用和超过5000万条跨不同来源规范化的独特参考。sor拜客生活常识网

有了这么庞大的数据集之后，那接下来便面临两个问题。sor拜客生活常识网

第一个问题是如何管理这些高质量的数据集，实现这点，GAL用了两步：sor拜客生活常识网

所有数据都以一种通用的标记格式进行处理，打通各种来源数据之间的壁垒。
预训练中包含用于特定任务的数据集，这就能保证在处理特定任务时能够更加专业。

还有一个问题是：如何设计界面交互？sor拜客生活常识网

首先就像上文提到的那样，GAL能够支持不同类型的任务。sor拜客生活常识网

因此在设计界面交互时便对各种任务进行分类，不同的分类会支持不同的类型的数据。sor拜客生活常识网

sor拜客生活常识网

既然GAL拥有高度管理和高质量的科学数据集，那和其他模型相比效果如何？sor拜客生活常识网

直接上数据！sor拜客生活常识网

推理方面，GAL的优势脱颖而出，在数学MMLU（大规模多任务语言理解）上，表现要优于Chinchilla，数学方面，表现也优于PalM 540B和GPT-3 175B。sor拜客生活常识网

sor拜客生活常识网

尽管，GAL并没有经过一般数据集的训练，但它在BIG-bench上的表现仍旧优于BLOOM和OPT-175B。sor拜客生活常识网

sor拜客生活常识网

看完之后是不是也心痒痒了，先码住再说！sor拜客生活常识网

传送门：
https://galactica.org/sor拜客生活常识网

参考链接：
[1]https://twitter.com/paperswithcode/status/1592546933679476736
[2]https://github.com/paperswithcode/galai
[3]https://galactica.org/static/paper.pdfsor拜客生活常识网

— 完 —sor拜客生活常识网

量子位 QbitAI · 头条号签约sor拜客生活常识网

关注我们，第一时间获知前沿科技动态sor拜客生活常识网

首页上一页 12

AI科学语言大模型火了，数学生物样样行，编代码写综述也不在话下

怎么做到的？

相关阅读:

热门信息

热门文章

最近发表

AI科学语言大模型火了，数学生物样样行，编代码写综述也不在话下

怎么做到的？

相关阅读:

猜你喜欢

热门信息

热门文章

最近发表