这么多环节,只有从每个环节都压榨回来一点时间,才能让整体搜题等待时间大幅减少。
于是团队变身人肉榨汁机,从三个方向开始压榨。
第一,压榨照相机模块。
为了方便开发迭代,之前的相机模块采用的是轻量化的“web框架”,这次为了速度,前端团队一狠心另起炉灶,换成了“客户端架构”,虽然维护更难,但速度如飞。
第二,压榨传输链路。
图片从手机传输到夸克的服务器,要经过好几个系统“接力”处理,路由器、运营商、负载均衡,进入服务器之后,也要像串糖葫芦一样经过几道系统,这些系统有的跑在杭州机房,有的跑在张北机房,有的跑在广州机房,相当于数据要在神州大地上来回奔袭好几个来回。
虽然是光速来回,但毕竟咱们国家大得离谱,路上还是会消耗很多时间。
最终,技术团队优化了调度方式,在每个机房都安排了一整套处理系统,让用户可以"就近接入",比如广州的用户就接入距离广州最近的深圳机房,全套处理完直接把结果返回手机。就像现在人民群众去办事儿,“最多跑一趟”。
第三,压榨算法系统。
之前为了保证搜题准确率,王杰雄他们为搜索引擎增加了很多“冗余”,这下为了节省时间,又不得不拆掉一些。
![当年轻人在说“夸克真香”,他们在说什么?](https://images.weserv.nl/?url=https://hzimgs.oss-cn-hangzhou.aliyuncs.com/uposs/2022_01/07/1641536414RjMgAa.jpg)
估计你也猜到了,压榨算法系统肯定会带来一些副作用,那就是识别率很有可能下降。
这个时候,黄锐华的文字识别团队又杀了出来。他们也憋了一个大招:
重写一套数据标注系统,让外包团队为他们重新标注一套比过去精准无数倍的题库数据。他们要用这套新的标注数据,训练出史上最准确的文字识别系统。
这套数据的标注要精准到什么程度呢?所有题目的框选都精确到了近乎像素级的精度。而为了达到这个目标,全部标注员都提前做了严格的培训,还专门设立了检查员的岗位,负责二次检查数据标注的精度。最终数据拿回来,夸克的技术同学还要进行复查,绝不放过一个错误。
我们认准了一个道理:数据样本的精度,决定了你识别能力的上限。所以我们就用这种笨办法!
黄锐华一脸技术人的执拗。
这次数据标注,不仅标注了印刷文字,还标注了之前没时间解决的手写文字。而且手写文字还包括了小学生、初中生、高中生的不同字体,也包括了手写数学公式、手绘图、手写英语等等。
这一套标注下来,用了整整两个月时间,所花的金钱成本远超你的想象。
这个识别系统的效果怎么样呢?用黄锐华的话说就是:“拿印刷体的识别来说,已经达到遥遥领先业界的效果,基本不会错了。”
“基本不会错?”我问。
“基本不会错。”他说。
这种斩钉截铁的话在严谨的技术老师傅嘴里说出来,还是挺震撼的。
就这样,所有人又拼了两个多月,100毫秒100毫秒地抠,先是把搜题中用户等待的时间减少了30%,后来又减少到了最初的50%,这两天他们还在拼命准备再减下去10%。
夏雅曈说,她手机里已经装上了夸克最新版的测试版,搜题速度杠杠的。我说我不信,于是她给我现场展示了一下新老版本的速度对比。
我做成了 gif 你看看。(左边是旧版,右边是新版)
![当年轻人在说“夸克真香”,他们在说什么?](https://images.weserv.nl/?url=https://hzimgs.oss-cn-hangzhou.aliyuncs.com/uposs/2022_01/07/1641536414UIwYNK.jpg)
![当年轻人在说“夸克真香”,他们在说什么?](https://images.weserv.nl/?url=https://hzimgs.oss-cn-hangzhou.aliyuncs.com/uposs/2022_01/07/1641536416OHpckC.jpg)
夸克的第二代搜题引擎大概会在2021年1月底上线。忙了一冬天的黑科技,就要在新版本的夸克 App 上闪亮登场,团队的男女老少们正在期待地搓手手。
各位铁子们要是有兴趣,正好可以更新一下最新的“脱胎换骨版”夸克,体验一下B站用户心中永远滴神到底香还是不香。