telegram有插件月费40可以实时翻译任何语言,我粗看了下大概是发送到火山翻译然后把译文用js附加html元素显示在原文下,目前一天下来总会花不少时间刷知乎、rt今日俄罗斯看看有没有什么刺激的新闻,消息有限是一方面另外长期如此也容易信息茧房,于是想在telegram看看有什么关注度大的频道利用chatgpt来逆向这个telegram的翻译插件。这个程序用到了beautiful soup格式化html提取文本,分段发送给火山翻译。需要注意的有几点:
1.translate_tab = tab.get_tab(url=’volcengine.com‘) 用get_tab可以获取当前已有的标签页,我一开始是打开telegram再跳转到火山翻译,反复横跳。这样会造成每次跳转需要设置页面加载等待时间,另外火山翻译每次打开默认是翻译为英文,如果页面始终保持打开不刷新的话,可以设置好中文,这样不用反复切换翻译语言,那样也会耗时。
2.有时会莫名其妙翻译语言切换为英文,这里检测翻译语言,若因为不明原因发生变动则使其切换为中文。
3.过滤掉一些出现文本的html元素以及某些文本,比如点赞数的数字,日期,http www链接等等,@用户名,这些都会浪费时间没有翻译的意义。
4.一开始翻译遇到了译文顺序问题,多段译文会倒叙排列,因为后翻译的会去紧贴原文的div,我想了下不如把同一个div中的原文合并提交,这样还可以节约提交次数省事且解决了顺序问题,因为同一个div下的原文会合并一次性翻译出来。这样做还能避免重复出现过的内容检测第1个div从而使译文错位的问题。
5.译文因为重复出现过的内容检测第1个div从而使译文错位的问题,可以通过添加属性给属性值translated作为标记从而跳过,这个手法或许在4的使用下变得没有用武之地,不过其他项目可以参考。