学术动态

计算机科学与工程学院王晓亮教授指导本科生团队在机器翻译算法的准确性上取得新进展

翻译软件成为不同语言交流的重要工具,人们对于翻译水准的要求也越来越高,主要体现在人们对语言沟通的无障碍化渴望。在基于庞大语料库的统计翻译方法中,基于词汇和短语统计的机器翻译的性能由于建模单元过小而受到限制。传统的基于统计的机器翻译方法主要依赖于语料数量的多少和统计结果的优良来进行歧义消解处理和译文选择,缺少对上下文和语境的关注。


近日,我校计算机科学与工程学院王晓亮教授指导的本科生团队经过对机器翻译算法的改良研究,提出了一种使用隐马尔科夫模型的翻译改进算法。算法通过双重使用隐马尔科夫模型中的Viterbi算法,提高了翻译过程中的上下文相关性。


依照上述算法,在一个连贯的文档中对每一条句子制定一个主题,则连贯的文档就可以被描述为一条句子主题序列,同时每个主题之间相互联系,主题变化连续,主题之间可以构成一个关系图,则这种类型的句子主题序列就被用来作为文档的连贯链。最后在基于文档相干链的统计机器翻译相干捕获框架上进一步完善使之成为基于隐马尔科夫模型的人工智能翻译。在预翻译阶段,通过RNN(卷积神经网络)对翻译数据集进行训练,得到的训练结果数据作为下一步Viterbi算法的输入参数。在算法运算之后,从篱笆网络中选出路径最小的序列,即最大概率可能出现的句子翻译结果,再将所有生成的句子结果构成一篇文章序列,结合对数据集训练后所得到的概率和文章序列,再次使用隐马尔科夫模型中的Viterbi算法进行运算,从而形成最终的译文。实验证明,这种算法不仅提高了翻译的准确性,避免了无效的单词词意组合,也增强了语句可读性,使句意更加饱满和精确。

fc881091497a47bab54433f9e7b39ed4.png


基于主题的文档级机器翻译连贯模型,即利用隐马尔科夫主题模型生成源文档的一致性链,并通过基于MaxEnt的预测模型将源文档的一致性链投射到相应的目标文档上。投影的连贯链捕获目标文档翻译中单词/短语选择的主题相关约束。


这一研究成果发表在国际SCI权威期刊《Computers, Materials & Continua》(IF=4.89)上,文章第一作者为2018级信息安全专业本科生常云鹏,第三作者为2017级物联网工程专业本科生薛梅花,通讯作者为我校王晓亮教授,第一单位为湖南科技大学,第二单位为澳大利亚迪肯大学。


计算机科学与工程学院自2018年试行本科生导师制以来,确立“以学生为本”的教育教学理念,建立新型师生关系,以达到因材施教、个性化培养以及引导和激励学生创新的目的。王晓亮教授指导的学生团队已经获得相关学科国家级竞赛12项,省级竞赛24项,发表国际SCI期刊论文5篇,软件著作权12项,发明专利2项,保送研究生4人。


该文章的标题: Improving Language Translation Using the Hidden Markov Model. 

该文章的链接:https://www.techscience.com/cmc/v67n3/41567


评论
用户: 邮箱:
全部评论