更新日:

第6章:インターネット多言語対応の難しさ【Multilingual Experience 外国人戦略のためのWEB多言語化】

Image of 佐藤菜摘
佐藤菜摘

本企画では、2019年10月に Wovn Technologies株式会社 取締役副社長・COO の上森 久之が著した書籍「Multilingual Experience  外国人戦略のためのWEB多言語化」の全文を全9回に分けてお届けしております。

第7回となる本記事では、『第6章 インターネット多言語対応の難しさ』を公開します。

Multilingual Experience 外国人戦略のためのWEB多言語化 目次

インターネット多言語対応の難しさ

情報伝達のほとんどはインターネット

インターネット上の情報は増加の一途をたどっています。

総務省の『平成30年版情報通信白書』によると、世界の情報の流通量であるトラフィックは「2017年から2020年にかけて約1.9倍に増加し、2020年には1カ月あたり228エクサバイト(EB:10の18乗バイト)に達する」とされています。

テレビやビデオなどの映像データはもちろん、ラジオや書籍など音声データや文字データもインターネットを通じて提供されるようになってきたことを考えると、現代社会の情報伝達は、そのほとんどがWEBサイトなどのインターネット経由で伝えられていると言っても過言ではないでしょう。

そのためビジネス分野においても、成長市場であるインバウンド、在留外国人、海外展開のいずれに対応する場合も、企業が自社のWEBサイトを多言語化することは必然です。

しかし、自社ビジネスのグローバル化の重要性が指摘され始めてから長い歳月が経っているにもかかわらず、いまだにごく一部の大手企業のWEBサイトしか多言語化は実現できていません。

その理由はいくつかあります。

WEBサイトの多言語化に必要な作業のうちの1つが「日本語のテキストを別の国や地域の言葉に翻訳すること」ですが、この「WEBサイトのテキスト翻訳」ですら、十分に整備されていないのが実情です。

その重要性を十分に理解し認識しているのに、どうして日本の企業のWEBサイトの多言語化は、これほどまでに遅れているのでしょうか。

最大の理由として「現代の多言語化には、これまでと全く次元の違う『量とスピード』が求められていること」が挙げられます。インターネット上のメディアは、個人のツイッター、インスタグラム、ブログから、企業が発信するWEBサイトやECサイトに至るまで、無数に存在します。インターネット上にアップロードされた大量の日本語の情報を多言語に翻訳しようとすると、従来の翻訳作業では、工程に無理があるうえに人的コストもかかりすぎます。

これまでの翻訳作業では、まず受発注があり、翻訳者によって翻訳作業が行われ、その訳文が正しいかどうか別の人間がチェックして、依頼者も納品された訳文をチェックして、おかしなところがあれば差し戻し、完成すれば、一文字いくらの計算で請求書を起こして・・・といったプロセスを踏むため、膨大な手間と時間がかかってしまいます。

このように工程に時間をかけていては、次から次へと新しい情報が提供される今のビジネススピードには、到底追いつけません。また、すべての工程が「人による作業」なので、大量の情報を翻訳するためには、莫大な費用がかかってしまいます。

では、インターネット時代の「量とスピード」をこなすことができる方法はないのでしょうか。その答えの1つが「機械翻訳」、つまりコンピュータに翻訳させる方法です。インターネット時代に適応した新しい翻訳手法を理解してもらうために、まずは「機械翻訳」について、簡単に説明しましょう。

0067_slide1

 

大昔から機械翻訳の開発に取り組んできた

一般のユーザーが当たり前のように「機械翻訳」の恩恵を受けられるようになったのは、ここ数年の出来事と言えます。
「機械に翻訳を任せよう」という発想は17世紀ぐらいからありました。しかし、研究が実用化段階に入ったのは、第二次世界大戦後の1940年代から1950年代にかけて、コンピュータ・システムの黎明期と同時であると言われています。

最初は、例えば日本語の「こんにちは」を入力すると「Hello」が出力されるといったように、翻訳前の言語と訳語を1対1でマッチングさせるルールベースのものでした。ルール通りに翻訳されるので、当然限界があり、結果は ”ぎこちない直訳” にしかなりませんでした。

そこで、第二世代として登場したのが「統計的機械翻訳」でした。事前に膨大な対訳文をインプットして、統計確率論に基づいたアルゴリズムをつくり、翻訳結果を導き出す方法です。

第一世代に比べてより適正な翻訳が期待できましたが、インプットする対訳文も、統計確率論に基づいたアルゴリズムも人間がつくりこまなければならないため、機械が自動的にさばける領域やボリュームには自ずと限界がありました。

この「限界」を突破する技術として登場したのが「ニューラルネットワーク」でした。

 

ニューラルネットワークが機械翻訳を変えた

「ニューラルネットワーク(neural network)」とは「neural(神経細胞)」の「network(網)」という言葉通り、脳を研究する神経学に基づいた、人間の脳機能に見られる思考回路に似た数理的モデルをもとにした情報処理技術です。

それ以前の翻訳作業は、言語の構文に基づいて処理されてきました。しかし、現在のAI(人工知能)やディープラーニングの基礎ともなっている「ニューラルネットワーク」では、まず、もとの言語を数値に変換してデータ化し、その数値データをニューラルネットワークの数理的モデルのシステムにインプット(入力)して、処理されたデータ(数値)がアウトプット(出力)され、そのデータを言語に戻すという仕組みです。

もとの言語をインプットしてから、翻訳された言語がアウトプットされるまで、そのプロセスのすべてがコンピュータで処理されるので、ニューラルネットワークを使った機械翻訳では、大量のデータであっても人力とは比べものにならないスピードで処理できるようになりました。

しかし、「インターネット時代」にぴったりの「ニューラルネットワークによる機械翻訳」にも、残念ながら、人が翻訳するときにはなかった弱点がありました。それは「翻訳の工程がブラックボックスなので、アウトプットされた翻訳文が正しいか、翻訳過程を追ってチェックすることができない」ということです。簡単に言うと「翻訳結果が本当に正しいかどうか分からない」ということです。

 

ファッションの「ワンピース」が漫画の「海賊王」に

ニューラルネットワークによって、単語やセンテンスの1対1のマッチングだけでなく、コンテクスト(文脈)まで読みこんで最も適した訳文を出力するわけですから、翻訳の質は格段にアップしました。

それでも、企業のWEBサイトの多言語化が機械翻訳だけの結果で提供されている事例は、ほとんどありません。ニューラルネットワークがどのようにして翻訳したのか、そのプロセスがブラックボックス状態なので、訳文に抜け漏れや重複がないかどうか、出力されるまで分からないからです。

そのような不確実な精度では、細かな点まで間違えることが許されず、厳密に正しく伝えなければならない企業の基幹業務にかかわる仕事の翻訳には、到底使えないのです。

実際、機械翻訳だけだと、人によって翻訳された場合には発生しないような誤訳も生まれます。例えば、日本語で書かれたファッションのECサイトにあった「ワンピース」をニューラルネットワークの機械翻訳で訳したら日本語で「海賊王」という翻訳になったケースがあります。

中国では尾田栄一郎氏の漫画『ONE PIECE(ワンピース)』が絶大な人気を誇っており、そのタイトルは『海賊王』や『航海王』と訳されています。日本人なら、ファッションのECサイトに出てきた「ワンピース」は当然、女性の服だと常識的に分かりますが、コンピュータには人間の常識など備わっていないので、ニューラルネットワークの機械翻訳は、中国で頻繁に訳されている「海賊王」の方を機械的に選択して、出力してしまったというわけです。

他にも「堺筋(さかいすじ)」を機械翻訳したら“Sakai Muscle” と表示されてしまい、それが広く報道されるということが起きたりと、機械翻訳「だけ」を利用して誤訳が発生してしまった事例が多くあります。

このように、現在の機械翻訳では、人力翻訳ではありえない誤訳が起こるリスクがあるため、多くの翻訳会社で始まっている取り組みが「MTPE」です。

 

機械翻訳の限界を人が補う「MTPE」

「MTPE(Machine Translation Post-Editing)」とは「機械翻訳(Machine Translation)の結果を(人力で)編集する(Post-Editing)」という意味です。

まずはニューラルネットワークの機械翻訳で大量の翻訳データをざっと処理させて、その出力結果を人間が編集(チェック)することで、翻訳の精度と正確さを担保する翻訳手法です。そうすれば、先に紹介したように、ファッションのECサイトに出てきた「ワンピース」を「海賊王」と誤訳したようなケースも、人によって正しく修正できます。

「最後に人間がすべてチェックしなければならない二度手間が必要なら、最初から人間が翻訳する従来の方法とそれほど変わらないのでは?」と思う人がいるかもしれません

しかし現代は、本や雑誌など紙媒体がメディアの主力だった昔とは異なり、IT化が進み、ビジネスを成功させる最も重要な要素の1つとして「スピードの速さ」が求められています。

情報伝達のほとんどがインターネットで大量かつ瞬時に伝えられる現代において、情報の基礎となる「言語」の翻訳に求められている「量とスピード」をこなすためには、プロセスに「機械翻訳」を導入して、作業時間とコストを大幅に削減することが不可欠です。

そのため、膨大な時間と費用をかけてでも、厳密な正確性が求められる法律書や契約書など一部の例外を除いて、機械翻訳と人力翻訳を組み合わせたMTPEが世界的なトレンドとなっているのです。

米国のWEBサイトのローカライズでは、従来の手法に比べて5倍以上のスピードで実現できた例もあります。

では、MTPEの考え方で取り組みさえすれば、日本の企業のWEBサイトの多言語対応もクリアできるのでしょうか。
実は、そう簡単な話ではないのです。

「MTPE」で解決できるのは、あくまでもテキスト部分だけを日本語から他の国や地域の言語に翻訳することだけです。「WEBサイトの日本語のテキストをほかの言語に翻訳したら、その国や地域の人も日本人と同じように読めるはず」と思った方がいるかもしれませんが、その考え方は、残念ながら正しくありません。

テキストを翻訳しただけでは、企業のWEBサイトの多言語対応として十分ではないからです。先に触れたように、WEBサイト内の文字を読むだけでなく、それをどのように読み、操作して使ったかの体験まで含めて、利用者にとって快適に感じるよう、動作もコンテンツもきちんと最適化されている必要があるからです。

 

WEB多言語化では、テキスト翻訳はごく一部分

多言語化とは、ただ翻訳をするのではなく「その国の文化を翻訳する」ことであり、それは「国際化」+「地域化」です。私は、それぞれ以下のように定義しています。

国際化とは「言語ごとにいちいち開発・翻訳するのが大変だから共通プラットフォーム化しよう」という考えです。例えば住所や日付の表示形式を変更したり、通貨の単位を日本円からドルなどの現地通貨にしたり、縦書きだった文字綴りの方向を英語なら横書きの左から右、アラビア語なら右から左に変えるなど、その国の規定、つまり共通するプラットフォームへの対応です。

一方の地域化は、広義で言うと翻訳それ自体です。ただし、そのまま翻訳しても理解できない言葉や表現を、現地の風土や文化に合わせた言い回しに修正(対訳)することも含まれます。例えば日本の「おにぎり」をアフリカのどこかの地域や国では食文化に合わせて「クスクス」に変えるということです。もちろん小説、広告などすべてを「クスクス」に対訳するわけではなく、修正もケースバイケースです。

ここで、「WEB多言語化」について説明します。WEBサイトでは、テキスト(文字)情報だけでなくコンテンツやビジュアル、デザインといったものが含まれ、それらすべてを含めてその国の言語、地域、文化に合うように最適化するということが理想です。

日本語サイトを他の言語のサイトにローカライズするときには、縦書きを横書きに変更するのに合わせてデザインやビジュアルも変更し、文化や好みに合わせて全体的なイメージや使用するフォントなどを変更することも考えます。国や地域ごとに、取り扱う商品も差し替えることもあります。

WEBサイトを通じたコミュニケーションにはほかに、ページの読み込み速度や情報の分かりやすさなど、ユーザーがWEBサイトに触れたり操作したりするという要素が含まれます。

スマホから見る画面上の商品の写真が小さすぎてよく分からなかったり、WEBサイトの中で知りたい情報にたどり着けなかったり、さらには登録画面や購入画面で操作が難しくて手こずってしまうようでは、どんなに素敵な商品があっても、ユーザーはそのWEBサイトからすぐ離れてしまいます。多言語に対応したとしても、こうした使いやすさが担保されていなくてはならないのです。

これらは「UI/UX(User Interface / User Experience)」と呼ばれ、WEBサイトの使いやすさ、デザインやフォントの美しさ、かっこよさなどが含まれます。WEBサイトを別の言語に翻訳するといった場合、こうしたユーザーが感じることすべてがなめらかに、そして快適に、その地域で受け入れられるよう最適化することを意味しています。

 

テキストの翻訳でWEBサイトのデザインが崩壊

例えば、日本語のWEBサイトに「蝶」という文字があったとします。

漢字では1文字、カタカナの「チョウ」でも3文字しかありませんから、表示するスペースは3文字分あれば十分です。

ところが、「蝶」は英語では「butterfly」で9文字、ドイツ語だと「schmetterling」で13文字です。これを機械で翻訳して単純に置き換えてしまったら、文字スペースが横に大きく伸びるか、あるいは1行増えてしまうでしょう。文字スペースにゆとりがなければ、デザインが崩れて読めなくなる可能性もあります。

実際に、こうした単純な翻訳の影響でデザイン全体が崩れ、ECサイトでカートに入れるボタンが押せなくなるというケースもありました。せっかくお客様がサイトまで来てくれたのに、商品が買えないという最悪の状況です。

また、アラビア語のサイトに翻訳するなら読む方向は左右逆になりますし、日本語には「横書き」だけでなく「縦書き」もあります。縦書きのスペースに外国語を流し込めば、奇妙で読みにくいデザインになってしまいます。

実際、あるアイドルグループのWEBサイトを機械翻訳して海外展開したら、漢字で書かれていた固有名詞の部分の文字量が長くなって、複数箇所で段崩れが起こり、サイト全体のデザインが崩壊してしまったケースがありました。

このように、WEBサイトを正しく多言語対応させようと思っても、現在の機械翻訳だけでは適切に対処しきれないケースが数多くあるのです。

0067_slide2

 

革新的技術の導入は大手企業から始まる

実は、この「デザイン崩壊」の問題については、新しい技術によって、ある程度の解決方法が開発されていますが、その解説は次の章に譲ることにして、もう1つ、企業のWEBサイトの多言語化が遅れている大きな要因について解説します。

その要因とは、ここまで紹介してきた「技術的な問題」ではなく、WEBサイトの多言語対応に取り組む日本の「企業体質」とでも呼ぶべきものに関係しているのです。世の中を変えるような新しいテクノロジーを最初に採り入れるのは、往々にして、ある程度の投資が可能な規模の大きな企業です。

大企業が導入して、その技術の信頼性や費用対効果の正当性が確かめられると、ほかの大企業も導入し始め、さらに広く利用されます。結果、新技術の価格は下がり、やがて、中小企業を含めたほとんどの会社にも導入されていきます。

言い換えれば、大企業の中で取り組みが始まらないことには、日本にある400万の中小企業に新たな技術を普及させることは難しいのです。

企業の意思決定としては、まず中長期計画という大きな方針が掲げられ、次にCFO(Chief Financial  Officer :最高財務責任者)がお金の振り分け先を決定します。次に情報システム関連の事項は、CIO(Chief Information  Officer :最高情報責任者)が具体案を決めていきます。

日本の多言語化技術に関しては、まだ大企業の投資が始まったばかりのフェーズだといえます。

 

いよいよ大企業の多言語対応への投資が始まった

中小企業の場合、自社のビジネスにとってWEBサイトを含む多言語化が必要だとはっきりすれば、企業の意思決定がシンプルな分だけ、実現性は高くなります。とりわけ、中小企業に多いオーナー社長の場合は「社長の僕が決断した。やろう!」と社長個人の判断によるトップダウンで決められるので、たとえ実績がなくとも、新しい技術を導入しやすいのです。

ところが、大きな企業となると、話は変わります。

大企業の場合、ガバナンスがしっかりしており、ROI(Return On Investment :投資額に対してのリターンの比率)も株主や投資家に開示しなければならないため、企業の意思決定もシビアにならざるをえません。

そこで、大企業の意思決定は大抵、経済産業省など権威ある機関が出したレポートに基づいたものとなり、必然的に2年も3年も前の古い陳腐化した情報に基づく場合が多くなります。技術が新しすぎて実績やデータがないものに関しては、投資効果が見えないため、ROIも算出できず、意思決定ができないからです。

特に「多言語化」に関しては、数値化しやすい部分と、数値化できない部分が混在しているので、ROIの算出が困難なため、大企業が新しい技術を導入するのが難しくなるのです。

さらに大企業の「多言語化」を遅らせているのは、役員の任期が短いことも関係しています。一般論ですが、「任期があと数年」となると、費用対効果の見えづらい投資判断はしにくくなります。

中期的経営計画に基づけば「多言語対応した方がいい」と分かっていても、「俺が会社にいる間はとりあえずやめておこう」という短期的な思考になってしまっては、企業の多言語化はますます遅れることになってしまいます。だからこそ、優れた投資家は、企業の中長期的なビジョンを重視します。それがなければ、企業の持続的な成長は期待できないからです。

インバウンドや在留外国人の増加など、急激なグローバル化に直面する日本企業が取り組むべき「外国人対応」は、待ったなしの状態です。しかし従来の方法では、大企業の多言語対応に莫大な時間と費用がかかることも、厳然とした事実です。

 

第7章  「多言語対応の最適解は SaaS」に続きます。

 

 

12_design_website_media_cta_1080x1080 c4_website_renewal_media_cta_1080x1080 50_global_site_media_cta_1080x1080