南湖新闻网讯(通讯员 )近日,人工智能领域国际会议AAAI-2024 (The 38th AAAI Conference on Artificial Intelligence,CCF-A类) 录用了信息学院沙灜教授课题组在自然语言处理领域的2篇研究成果和章文教授课题组在人工智能与生物医学交叉领域的两篇研究成果。
沙灜教授课题组被录用的2篇研究论文分别以“Uncovering and Mitigating the Hidden Chasm: A Study on the Text-Text Domain Gap in Euphemism Identification”和“Mitigating Idiom Inconsistency: A Multi-Semantic Contrastive Learning Method for Chinese Idiom Reading Comprehension”为题,研究解决了委婉语识别中的文本域间差距和中文成语理解的语义不一致问题。
委婉语通常在社交媒体和暗网市场上使用,通过用合法的内容掩盖其真实含义来逃避平台监管。例如,在非法交易中使用“weed而不是“marijuana”。因此,委婉语识别,也就是将给定的委婉语(“weed”)映射到其特定的目标词(“marijuana”)这一任务,对于改进内容审核和打击地下市场至关重要。现有方法采用自监督方法来自动构建用于委婉语识别的标记训练数据集。然而,他们忽视了构建的源训练数据和目标测试数据之间的差异而导致的文本域差距,从而导致性能下降。在本文中,沙灜教授研究团队提出了文本与文本域差距,并根据数据分布和锥体效应解释了它是如何形成的。此外,为弥补这一差距,引入了特征对齐网络(FA-Net),它可对齐域内和跨域特征,从而缩小从训练数据到测试数据的域差距并改善委婉语识别模型的性能。研究团队将这个FA-Net网络应用于委婉语识别基础模型中,识别效果有了显著提升,创建了一个能够击败大语言模型的最优模型。
中文成语由于其隐喻意义往往与字面意义不同,导致了隐喻不一致,给机器阅读理解带来巨大挑战。此外,同一个成语在不同的语境中可能有不同含义,从而导致语境不一致。尽管基于深度学习的方法在成语阅读理解方面取得一定成功,但由于成语的隐喻不一致和语境不一致,现有方法仍难以准确捕捉成语表征。为应对这些挑战,沙灜教授研究团队提出了一种新模型,基于多语义对比学习(MSCLM),它可同时解决成语的隐喻不一致和语境不一致问题。为缓解隐喻不一致问题,本研究提出了基于Prompt方法的隐喻对比学习模块,以弥补成语字面意义和隐喻意义之间的语义差距。为缓解语境不一致问题,本研究提出了多语义交叉关注模块,以探索同一成语在不同语境中不同隐喻之间的语义特征。在多个中文成语阅读理解数据集上,研究团队提出的模型与当前多个最新模型(包括 GPT-3.5)进行了比较,实验结果表明MSCLM优于最先进的模型。
我校信息学院博士生胡玉雪、硕士研究生吴明民分别为2篇论文第一作者,沙灜教授为通讯作者,该项研究工作获得国家自然科学基金面上项目等资助。
章文教授课题组被录用的两篇研究论文分别以“A Multi-Modal Contrastive Diffusion Model for Therapeutic Peptide Generation”和“Improving PTM Site Prediction by Coupling of Multi-Granularity Structure and Multi-Scale Sequence Representation”为题。第一项研究设计了多肽的多模态联合扩散生成模型,以最大化序列-结构模态互信息,提升多肽的生成质量;第二项研究设计了多粒度结构和多尺度序列相结合的蛋白翻译后修饰(PTM)位点预测模型,提升PTM位点识别的准确度。
多肽由于其高亲和性、低免疫性等特点,已被广泛用于抗肿瘤、抗病毒等临床治疗。此外,多肽可用于农业生产,在植物保护中与农药协同增效,降低生态危害性。传统的多肽设计,依赖于大规模多肽文库和高通量实验,存在经济成本高、时间周期长等缺陷。生成模型是人工智能领域的前沿技术,如何设计高质量、满足特定功能的多肽生成模型,是近年来AI for Science的热点研究问题。当前多肽生成模型大多使用序列级的多肽表示信息,无法有效描述多肽的结构信息,同时未充分利用多肽数据资源和领域知识,进而限制了多肽生成模型的性能。因此研究团队提出了一种名为多模态对比式联合扩散模型的多肽生成方法——MMCD。该方法有效整合多肽的序列-结构模态信息,并设计inter-CL和intra-CL两种对比学习策略,在生成过程中捕捉不同模态的一致性和数据之间的生物学差异性,从而实现高质量的、具备特定功能的多肽生成。
蛋白翻译后修饰(PTM)是指在氨基酸残基的侧链上添加小分子基团的生物学事件,是提高蛋白质组功能多样性的关键因素。PTM位点的准确测定有助于加深对蛋白质功能及其在各种复杂细胞过程中的调控机制的理解。如何准确预测PTM位点,是生命科学领域的重要课题。研究者已经开发了很多计算方法来预测PTM位点,然而现有方法仅利用蛋白质序列信息,忽略了蛋白质结构信息。考虑到PTM是发生在原子粒度上的生物学事件,迫切需要设计一种更细粒度的结构表示学习建模方法。研究团队提出了一种PTM位点预测方法——PTM-CMGMS,该方法从AlphaFold预测的蛋白质结构中学习不同粒度(氨基酸,原子和全蛋白)下的邻域结构表示,并利用对比学习优化结构表示以增强模型鲁棒性,同时提取蛋白质序列上下文和motif来获取多尺度的序列表示,从而实现高精度的PTM位点预测。
我校信息学院博士研究生王永康、博士研究生刘旋、硕士研究生李政毅分别为两篇论文的共同第一作者和第一作者,章文教授、朱丽达老师为通讯作者,该项研究工作获得了国家自然科学基金面上项目等的资助。
人工智能促进协会(AAAI)是具有重要影响力的国际学术组织,旨在推动智能思维与行为机制的科学理解及机器实现,并促进人工智能的科学研究和规范应用。
会议链接:https://aaai.org/aaai-conference/
审核:沙灜 章文