有点感觉像是为了V4版本的预热了。毕竟不到三个月的时间,突然就更新了OCR-2版本,这速度也太快了把。不由得让我想起了OpenAI的翁家翌对DeepSeek这个公司的评价:面对中国公司DeepSeek的竞争,OpenAI内部真正感到压力的不是对方的算法创新,而是其惊人的内部迭代速率。当你的对手能够以十倍于你的速度完成训练、验证、调整 ...
在当今多模态大模型的竞争中,文档解析一直是一个难以逾越的瓶颈。尽管早期的CNN+RNN架构已经取得了一定的进展,但在面对复杂的排版、表格以及非线性文本时,依然面临语义与序列错配的问题。当前主流的ViT-based Encoder在字符识别上虽有优势,但在阅读顺序 ...
这张架构图展示的是轻舟智航下一代自动驾驶模型架构,核心理念是将 VLA(Vision-Language-Action,视觉-语言-动作模型) 与 World Model(世界模型) 融合到一个端到端(End-to-End)的系统中。
很多小伙伴在看完 Datawhale开源项目: self-llm 开源大模型食用指南后,感觉意犹未尽,想要深入了解大语言模型的原理和训练过程。于是我们(Datawhale)决定推出《Happy-LLM》项目,旨在帮助大家深入理解大语言模型的原理和训练过程。 本项目是一个系统 ...
在维持极高数据压缩效率的同时,DeepSeek-OCR 2 在多项基准测试和生产指标上均取得了显著突破。模型仅需 256 到 1120 个视觉 Token 即可覆盖复杂的文档页面,这在同类模型中处于极低水平,显著降低了下游 LLM 的计算开销。
最近, LightOn 在文档理解领域推出了名为 LightOnOCR-2-1B 的全新模型。这个模型仅用10亿的参数量,就在权威的 OCR 评测基准 OlmOCR-Bench ...
姚顺雨加入腾讯两个月后,2025年12月初,腾讯发布混元2.0模型,总参数为4060亿。其英文名更新为HY2.0,被视为重视全球市场的举措。有人猜测该模型就是姚顺雨入职后的成果。但按照业内训练一代模型的周期来看,混元2.0不太会是姚顺雨从零开始训练的模型。
基于上述问题,快手在业界首次提出端到端的生成式统一查询推荐框架 ——OneSug,成功将召回、粗排、精排等多个阶段统一在一个生成模型中,显著提升了推荐效果与系统效率,在快手电商场景中实现了业务指标与用户体验的双重提升。
some analysis to understand the behaviors of streaming S2S models.
This paper presents a unified Vision-Language Pre-training (VLP) model. The model is unified in that (1) it can be finetuned for either vision-language generation (e.g., image captioning) or ...
知乎专栏 on MSN
成为大模型算法工程师最少应该掌握哪些知识? 来自一线算法工程师 ...
先说下我的经历,有6年大厂算法工程师的经验,2022年前主要做CV和NLP,2023年全面转向大模型方向。平均每年负责三个大模型相关项目,也参与组内其他项目。无论是作为面试官还是候选人,这前前后后的经历我都积累了不少。今天纯粹是个人经验分享,没有任何广告,可能带有我的个人视角,大家批判参考就好。
在 Transformer 架构的基础上,微云全息基于“Masked 预训练”策略。这种策略最初源于 BERT 模型在语言理解任务中的成功经验,被证明能够有效捕捉序列中元素间的深层次关系。微云全息研究团队将其迁移到红外光谱数据建模中,提出了一种自监督学习框架,用于从大规模无标签的红外光谱数据中自动学习鲁棒特征。
一些您可能无法访问的结果已被隐去。
显示无法访问的结果