python에서 Google Translate API를 이용하여 MarkDown 문서를 번역하는 코드를 구현하였습니다.
예를 들어, 한글로 작성된 MarkDown 파일이 ko.md
라면 이것을 일본어로 번역하고 ja.md
라는 파일로 만들어주는 것입니다.
물론, MarkDown의 모든 문법에 대한 예외처리를 하지 않아서 일부는 수작업으로 수정해줘야 합니다.
저는 GatsbyJS로 Blog를 작성하고 있으며, GatsbyJS는 다음과 같은 MarkDown을 읽어들입니다.
---
title: Google Translate으로 MarkDown 문서 번역하기
date: 2019-12-08
tags: [python, python-example]
description: python에서 Google Translate API를 이용하여 MarkDown 문서를 번역하는 코드를 구현하였습니다. GatsbyJS에서 사용하는 MarkDown 형식이며, 원하는 언어로 번역을 하고 파일로 출력합니다. 제가 구현한 코드를 공유합니다.
---
본문...
위의 MarkDown에서 meta-data는 title과 description만 번역하면 됩니다. 그리고 본문은 모두 번역이 되어야 합니다.
MarkDown parser는 번역이 필요한 부분을 찾고 Google Translate API를 통해 번역합니다. 번역이 필요하지 않은 부분은 그냥 파일에 출력하도록 구현합니다.
제가 만든 툴은 다음과 같은 명령어로 실행할 수 있습니다.
인자는 3개를 전달하며, ko.md
는 번역할 문서이며, en.md
는 번역 후 생성할 파일 이름입니다. 마지막으로 en
은 번역하려는 언어의 locale입니다.
$ python3 translate.py ko.md en.md en
혹시 필요하시거나 참고하실 분이 있을지 몰라 여기에 코드를 공유합니다.
translate.py
#!/usr/bin/env python3
from google.cloud import translate_v2 as translate
import sys
import os
SEPARATOR_META_DATA = "---"
SEPARATOR_CODE = "```"
SEPARATOR_IMG = "!["
SEPARATOR_IMG_CODE = "<img"
STR_TITLE = "title:"
STR_STAR = "*"
STR_SHARP = "#"
STR_DESCRIPTION = "description:"
translate_client = translate.Client()
USE_GOOGLE_TRANS = True
def is_english(text):
for c in text:
if not 0 <= ord(c) <= 128:
return False
return True
def correct_code_text(old, new):
CHAR_CODE = '`'
old_code_cnt = old.count(CHAR_CODE)
new_code_cnt = new.count(CHAR_CODE)
result = new
if (old_code_cnt == new_code_cnt) and (old_code_cnt%2 == 0) and (new_code_cnt%2 == 0):
old_idx = 0
new_idx = 0
for i in range(0, int(old_code_cnt/2)):
first_old = old.index(CHAR_CODE, old_idx)
old_idx = first_old + 1
second_old = old.index(CHAR_CODE, old_idx)
old_idx = second_old + 1
first_new = new.index(CHAR_CODE, new_idx)
new_idx = first_new + 1
second_new = new.index(CHAR_CODE, new_idx)
new_idx = second_new + 1
old_str = old[first_old:(second_old + 1)]
new_str = new[first_new:(second_new + 1)]
result = result.replace(new_str, old_str)
return result
def correct_link_text(new_text):
new = new_text
start = 0
end = 0
while True:
try:
start = new.index("](", end)
if start >= 0:
end = new.index(")", start)
if end >= 0:
link = new[start:(end+1)]
removed_white = link.replace(" ", "")
new = new.replace(link, removed_white)
diff_idx = len(link) - len(removed_white)
end = end - diff_idx
else:
break
except:
break
return new
def correct_bold_text(new_text):
new = new_text
start = 0
end = 0
while True:
try:
start = new.index("**", end)
if start >= 0:
end = new.index("**", start + 1) +2
if end >= 0:
link = new[start:(end)]
removed_white = link.replace(" ", "")
new = new.replace(link, removed_white)
diff_idx = len(link) - len(removed_white)
end = end - diff_idx
else:
break
except:
break
return new
def translate(origin, dest_lang):
print(origin)
result = translate_client.translate(origin, target_language=dest_lang)
translated = result['translatedText']
translated = translated.replace('(', '(')
translated = translated.replace(')', ')')
translated = translated.replace('#', '#')
translated = translated.replace('【', '[')
translated = translated.replace('】', ']')
translated = translated.replace('"', '"')
translated = translated.replace('>', '>')
translated = translated.replace('「', '"')
translated = translated.replace('」', '"')
translated = translated.replace(''', '`')
translated = correct_code_text(origin, translated)
translated = correct_link_text(translated)
translated = correct_bold_text(translated)
print(translated)
return translated
def parse_metadata_and_translate(src_lines, des_lines, idx, dest_lang):
text = src_lines[idx]
if not text.startswith(SEPARATOR_META_DATA):
return -1
des_lines.append(text)
idx = idx + 1
start = idx
for i in range(start, len(src_lines)):
idx = i
text = src_lines[idx]
if text.startswith(SEPARATOR_META_DATA):
idx = idx + 1
des_lines.append(text)
break
elif text.startswith(STR_TITLE):
title = text[len(STR_TITLE):-1].strip()
translated = translate(title, dest_lang) + "\n"
des_lines.append("%s %s"%(STR_TITLE, translated))
elif text.startswith(STR_DESCRIPTION):
description = text[len(STR_DESCRIPTION):-1].strip()
translated = translate(description, dest_lang) + "\n"
des_lines.append("%s %s"%(STR_DESCRIPTION, translated))
else:
des_lines.append(text)
if (idx + 1) == len(src_lines):
return -1
return idx
def parse_body_and_translate(src_lines, des_lines, idx, dest_lang):
start = idx
is_in_code = False
for i in range(start, len(src_lines)):
idx = i
text = src_lines[i].strip()
if text == "\n" or text == "":
des_lines.append(src_lines[i])
elif text.startswith(SEPARATOR_CODE):
is_in_code = not is_in_code
des_lines.append(src_lines[i])
elif text.startswith(SEPARATOR_IMG):
des_lines.append(src_lines[i])
elif text.startswith(SEPARATOR_IMG_CODE):
des_lines.append(src_lines[i])
elif len(text) > 4 and text[0] == STR_STAR and text[1] == STR_STAR and text[-1] == STR_STAR and text[-2] == STR_STAR:
des_lines.append(src_lines[i])
elif is_english(text):
des_lines.append(src_lines[i])
else:
if is_in_code:
des_lines.append(src_lines[i])
else:
translated = translate(text, dest_lang) + "\n"
des_lines.append(translated)
def parse_and_translate(src, des, lang):
src_lines = []
des_lines = []
with open(src, "r") as f:
src_lines = f.readlines()
idx = 0
idx = parse_metadata_and_translate(src_lines, des_lines, idx, lang)
idx = parse_body_and_translate(src_lines, des_lines, idx, lang)
if src != des:
with open(des, "w") as f:
for line in des_lines:
f.write(line)
if __name__ == "__main__":
if len(sys.argv) != 4:
print("please input src, des files and des lang")
exit(1)
src_file_name = sys.argv[1]
des_file_name = sys.argv[2]
des_lang = sys.argv[3]
cur_dir = os.getcwd()
for (root, dirs, files) in os.walk(cur_dir):
src = root + "/" + src_file_name
des = root + "/" + des_file_name
if not os.path.exists(des) and os.path.exists(src):
print(src)
print(des)
parse_and_translate(src, des, des_lang)
Google Translate API를 사용하는 방법은 이 글을 참고해주세요.
Loading script...
Related Posts
- Python - Yaml 파일 파싱하는 방법
- Python - 파일 내용 삭제
- Python - for문에서 리스트 순회 중 요소 값 제거
- Python - 두 리스트에서 공통 요소 값 찾기
- Python - 문자열 앞(뒤)에 0으로 채우기
- Python - 공백으로 문자열 분리
- Python - 중첩 리스트 평탄화(1차원 리스트 변환)
- Python - 16진수 문자열을 Int로 변환
- Python - 두 날짜, 시간 비교
- Python f-string으로 변수 이름, 값 쉽게 출력 (변수명 = )
- Python - nonlocal과 global 사용 방법
- Python 바다코끼리 연산자 := 알아보기
- Python - pip와 requirements.txt로 패키지 관리
- Python - 딕셔너리 보기 좋게 출력 (pprint)
- Python - Requests 사용 방법 (GET/POST/PUT/PATCH/DELETE)
- Python - 온라인 컴파일러 사이트 추천
- Python - os.walk()를 사용하여 디렉토리, 파일 탐색
- Python - 문자열 비교 방법
- Python - Text 파일 읽고 쓰는 방법 (read, write, append)
- Python - 리스트에서 첫번째, 마지막 요소 가져오는 방법
- Python - 두개의 리스트 하나로 합치기
- Python - 리스트의 마지막 요소 제거
- Python - 리스트의 첫번째 요소 제거
- Python 소수점 버림, 4가지 방법
- Python 코드 안에서 버전 확인 방법
- Python 소수점 반올림, round() 예제
- Python - 리스트 평균 구하기, 3가지 방법
- Python - bytes를 String으로 변환하는 방법
- Python - String을 bytes로 변환하는 방법
- Python 버전 확인 방법 (터미널, cmd 명령어)
- Python - 람다(Lambda) 함수 사용 방법
- Python - dict 정렬 (Key, Value로 sorting)
- Python - range() 사용 방법 및 예제
- Python - 리스트를 문자열로 변환
- Python - 문자를 숫자로 변환 (String to Integer, Float)