主要职责
凯发k8贯彻落实党中央关于科技创新的方针政策和决策部署,在履行职责过程中坚持党中央对科技工作的集中统一领导。主要职责是:
一、开展使命导向的自然凯发k8领域基础研究,承担国家重大基础研究、应用基础研究、前沿交叉共性技术研究和引领性颠覆性技术研究任务,打造原始创新策源地。 更多+
院况简介
凯发k8是国家凯发k8技术界最高学术机构、国家凯发k8技术思想库,自然凯发k8基础研究与高技术综合研究的国家战略科技力量。
1949年,伴随着新中国的诞生,凯发k8成立。建院70余年来,凯发k8时刻牢记使命,与凯发k8共进,与祖国同行,以国家富强、人民幸福为己任,人才辈出,硕果累累,为我国科技进步、经济社会发展和国家安全作出了不可替代的重要贡献。 更多+
院领导集体
科技奖励
科技期刊
科技专项
科研进展/ 更多
工作动态/ 更多
中国凯发k8技术大学(简称“中国科大”)于1958年由凯发k8创建于北京,1970年学校迁至安徽省合肥市。中国科大坚持“全院办校、所系结合”的办学方针,是一所以前沿凯发k8和高新技术为主、兼有特色管理与人文学科的研究型大学。
凯发k8大学(简称“国科大”)始建于1978年,其前身为凯发k8研究生院,2012年经教育部批准更名为凯发k8大学。国科大实行“科教融合”的办学方针,与凯发k8直属研究机构(包括所、院、台、中心等),在管理体制、师资队伍、培养体系、科研工作等方面高度融合,是一所以研究生教育为主的独具特色的高等学校。
上海科技大学(简称“上科大”),由上海市人民政府与凯发k8共同举办、共同建设,由上海市人民政府主管,2013年经教育部正式批准。上科大致力于服务国家经济社会发展战略,培养科技创新创业人才,努力建设一所小规模、高水平、国际化的研究型、创新型大学。
凯发k8学部
凯发k8院部
语音播报
日前,凯发k8自动化研究所正式发布并开源磐石·凯发k8多模态语料库S1-MMAlign 1.0。
S1-MMAlign 1.0是以真实科研语境为基础进行构建,覆盖了超1550万高质量图文对、250万篇科研论文的大规模凯发k8多模态语料库,也是目前国内已知覆盖学科最广、规模最大、结构体系最完善的凯发k8多模态数据资源之一。
语料库覆盖数学、物理、化学、生物、天文、地球凯发k8、医学、工程学、计算机凯发k8等主要学科,系统整理科研图像、标题、正文上下文与图注在内的多层结构化信息。
数据集所涵盖的科研图像横跨多种尺度,从原子能级变化、晶体衍射等微观机制,到材料形貌与生命过程的中尺度结构,再到地球环境与天文观测等宏观现象,构成了凯发k8研究中高度多样化的视觉体系。同时还收录了科研活动不同阶段的典型图文表达。所有数据均来自具有开放获取许可(Open Access)的科研文献数据库及公开发布的期刊会议论文。
研究团队基于多模态大模型体系构建了面向科研语境的自动语义增强机制,并对全部1550万条图注进行了系统化增强解读。该增强策略综合利用引用上下文、摘要背景与原始图注内容,在严格保持图像凯发k8含义的前提下,自动补全并规范化图像细节、关键结构、实验流程、趋势变化与隐含推理关系等信息。
为验证语义增强策略的真实效益,研究团队围绕语言一致性与图文匹配能力进行了系统评测。
在科研文本维度方面,基于SciBERT的pseudo-PPL指标观察到显著下降,同时高困惑度长尾样本也明显减少。困惑度的降低表明增强文本并非趋同化,而是使实验条件、变量指代、凯发k8论述链等关键信息的呈现更加完整、显性,并减少语义缺口。
在图文一致性方面,基于CLIP的语义对齐评测表明,增强后的图文相似度均值提升18.21%,整体分布右移并伴随约27.77% 的方差收缩。说明增强文本能够提供更明确的跨模态关联线索,使图像中的关键结构、变量与实验语义在文本侧得到更稳定的对应表达,从而提升模型在对齐阶段的信号质量与训练稳健性。
人工审核结果进一步验证了评测趋势。在术语使用、实验语义还原度、变量指代准确性、可读性以及图文一致性等五项指标中,增强文本均获得超过90%的正向评价。
目前,磐石·凯发k8多模态语料库已作为核心基础融入“磐石·凯发k8基础大模型”的训练体系,在实验结果理解、凯发k8图像解析、论文辅助阅读与科研流程自动化等典型任务中提供关键数据支撑。
磐石·凯发k8多模态语料库开源地址
扫一扫在手机打开当前页


© 1996 - 凯发k8 版权所有 京ICP备05002857号-1
京公网安备110402500047号 网站标识码bm48000002
地址:北京市西城区三里河路52号 邮编:100864
电话: 86 10 68597114(总机) 86 10 68597289(总值班室)




