nodejs简单实现中英文翻译

前端技术 2023/09/03 JavaScript

帮以前同事解决一个需求，中文项目翻译英文项目~~~

考虑到具体实现方面的问题，如果智能的话，肯定是要做中文的语法分析，不过感觉这个有难度。

所以最后的方案是遍历文件，将中文短语匹配出来，再进行人工翻译，将中文短语替换成翻译的内容。当然后期还是需要人工再检验下，毕竟代码中的中文，可能会影响到相关的程序。

这个问题，明显涉及到多线程，文件读写，第一时间就想到的是 nodejs，虽然nodejs是一个主线程，但是异步文件读写，事件响应机制，肯定也是调用了线程，在实际编程的时候不需要考虑线程的相关的问题。

代码不复杂如下，写完了之后，适当的封装了下

var fs = require(\'fs\');
var http = require(\'http\');
var filePath = \'D:\\\\WORK_new\\\\\';
var logPath = \'D:\\\\chinese.log\';

var map = {};
var num = 0;

var dictionary = (function () {
  var map = {};
  return {
    logPath: \'D:\\\\chinese.log\',
    set: function (key, val) {
      map[key] = val || \'\';
    },
    get: function (key) {
      return map[key]||\'\';
    },
    save2File: function () {
      fs.writeFile(this.logPath, JSON.stringify(map).replace(/\",\"/g,\'\",\\r\\n\"\'),{encoding:\'utf8\',flag:\'w\'}, function (err) {
        if (err) throw err;
      }); 
    },
    loadFile: function (callback) {
      fs.readFile(this.logPath, {encoding:\'utf8\'},function (err, data) {
        map = JSON.parse(data);
        callback();
      })
    },
    translateByGoogle: function (callback) {
      var index = 0;
      for (var key in map) {
        if (map[key] == \'\') {
          index++;
          (function (key) {
            http.get(\"http://translate.google.cn/translate_a/t?client=t&hl=zh-CN&sl=zh-CN&tl=en&ie=UTF-8&oe=UTF-8&oc=2&otf=1&ssel=3&tsel=6&sc=2&q=\"+key, function(res) {
              res.setEncoding(\'utf8\');
              var body = \"\";
              res.on(\'data\', function (chunk) {
                body+=chunk;  
              }).on(\'end\', function (){ 
                var obj = eval(\'(\'+body+\')\');
                map[key] = obj[0][0][0];
                index--;
                if (index == 0) {
                  callback();
                }
              });
            }).on(\'error\', function(e) {
              console.log(\'http error\');
              index--;
              if (index == 0) {
                callback();
              }
              console.log(\"Got error: \" + e.message);
            });
          })(key);
        }
      }
    }
  }
})();

function File () {
  var index = 0;
  var _readFile = function (pathStr, fileBack, doneBack) {
    fs.readFile(pathStr,{encoding:\'utf8\'}, function (err, data) {
      index--;
      if (err) {
        data = \"\";
        console.log(err,pathStr)
        //throw err;
      }
      fileBack(data,pathStr);
      if (index == 0) {
        doneBack();
      }
    });
  };
  var _walkDir = function (pathStr, fileBack, doneBack) {
    fs.readdir(pathStr, function (err, files) {
      files.forEach(function (file) {
        if(fs.statSync(pathStr + \'/\' + file).isDirectory()){
          _walkDir(pathStr + \'/\' + file, fileBack, doneBack);
        } else {
          if (/.js$|.html$|.htm$|.jsp$/.test(file)){
            index ++;
            _readFile(pathStr + \'/\' + file, fileBack, doneBack);
          }
          return;
        }
      });
    });
  }
  this.walkDir = function (pathStr, fileBack, doneBack) {
    index = 0;
    _walkDir(pathStr, fileBack, doneBack);
  }
}

//第一步 获取中文
dictionary.logPath = logPath;

new File().walkDir(filePath, function (data) {
  if (!!data) {
    var match = data.match(/[\\u4e00-\\u9faf]+/g);
    if (!!match) {
      match.forEach(function (mat) {
        dictionary.set(mat);
      })
    }
  }
}, function () {
  console.log(\'获取中文 OK\');
  dictionary.save2File();
})


//第二步 google翻译
/*
dictionary.loadFile(function () {
  dictionary.translateByGoogle(function () {
    dictionary.save2File();
  })
});
*/
//第三步 中文替换
/*
dictionary.loadFile(function () {
  new File().walkDir(filePath, function (data,pathStr) {
    fs.writeFile(pathStr, data.replace(/[\\u4e00-\\u9faf]+/g, function (ch) {
      return dictionary.get(ch);
    }),{encoding:\'ascii\',flag:\'w\'}, function (err) {
      if (err) throw err;
    }); 
  }, function () {
    console.log(\'中文替换 OK\');
  })
});
*/

问题还是有的

1.nodejs编码问题，在window环境下对GBK编码支持不好，主要是utf8文件的处理

2.效率上面可能可以再通过线程进行优化，这块没做深入的考虑

3.匹配出来，可能有单个的标点符号的短语等情况，需要人工排查

实际情况中，文件是GBK的，还有些文件是utf8的，后来还是考虑通过脚本语言快手实现的时候，

1.文件编码的问题，判断通过搜索

判断文件首位3个字节是不是 ef bb bf，但是这个只是针对有BOM的utf8格式

对无BOM的utf8格式，需要进行字节特征码的判断（有难度，精力有限，使用了上面的方案，对于无BOM的情况，进行人工排查）。

2.因为快手多线程方便编程很简单，一直以为多线程肯定比单线程效率要好。实际情况却和想的不一样，单线程的比多线程的快多了。看来主要瓶颈还是在读写文件IO上面。

以上所述就是本文全部内容了，希望大家能够喜欢。

本文地址：https://www.stayed.cn/item/6656

转载请注明出处。

本站部分内容来源于网络,如侵犯到您的权益,请联系我

微信
QQ好友
QQ空间
腾讯微博
新浪微博
人人网

我的博客

人生若只如初见，何事秋风悲画扇。

我的标签

随笔档案

2024-02(2)
2023-06(1)
2023-05(1)
2023-04(14)
2023-03(3)
2023-01(6)
2022-12(5)
2022-11(5)
2022-07(2)
2022-06(4)
2022-05(3)
2022-03(1)
2021-12(6)
2021-11(1)
2021-10(3)
2021-09(5)
2021-07(5)
2021-02(2)
2021-01(7)
2020-12(18)
2020-11(14)
2020-10(12)
2020-09(10)
2020-08(22)
2020-07(2)
2020-06(1)
2020-04(5)
2020-03(9)
2020-02(7)
2020-01(9)
2019-12(8)
2019-11(10)
2019-10(11)
2019-09(17)
2019-08(16)
2019-07(6)
2019-06(3)
2019-04(1)
2019-03(8)
2019-02(5)
2019-01(1)
2018-11(2)
2018-10(3)
2018-09(1)
2018-08(3)
2018-07(3)
2018-06(7)
2018-04(4)
2018-03(5)
2018-02(4)
2018-01(22)
2017-12(3)
2017-11(5)
2017-10(15)
2017-09(26)
2017-08(1)
2017-07(3)