WOVN MX Blog

第7章:多言語対応の最適解はSaaS【Multilingual Experience 外国人戦略のためのWEB多言語化】

作成者: 佐藤菜摘|2022/09/27 14:59:33

本企画では、2019年10月に Wovn Technologies株式会社 取締役副社長・COO の上森 久之が著した書籍「Multilingual Experience  外国人戦略のためのWEB多言語化」の全文を全9回に分けてお届けしております。

第8回となる本記事では、『第7章 多言語対応の最適解は SaaS』を公開します。

Multilingual Experience 外国人戦略のためのWEB多言語化 目次

 

多言語対応の最適解はSaaS

世界的に拡大する翻訳市場

本章では、私が所属する Wovn Technologies の多言語化SaaS「WOVN.io」の紹介も兼ねて、多言語化の現状や企業がビジネスを多言語化していくために必要な考え方や問題点などについて、話していきたいと思います。

コモンセンスアドバイザリー(CSA)によると世界の言語サービス産業(global language services industry)の2018年の市場規模は、496億ドル(4.9兆円、100円=1ドル換算)です。大半を占めるのは人力翻訳であると想定できます。

2010年以降、約5%前後の年間成長率で拡大しています。全世界のGDPの成長率はおよそ3%前後ですから、世界の成長より、言語サービス産業は成長率が高いと言えます。その理由は、世界的な移民増加や企業のグローバル化などが要因と考えられます。また、機械翻訳に関連した市場も成長しています。世界の機械翻訳市場の規模は、2018年に米ドル換算で5.3億ドル(530億円、100円=1ドル換算)です。

前述の世界の言語サービス市場全体に比較して、約1%ほどの規模ですが年率6%以上で成長しています。

今、最も利用されている機械翻訳エンジンは、おそらく Google翻訳でしょう。そのため一般の消費者は、Google翻訳の精度が、現時点で機械翻訳が到達した精度のグローバルスタンダードだと感じているのではないでしょうか。その使われ方は、ビジネスであればブラウザーから業務上必要な翻訳に利用したり、プライベートでは旅先でアプリを利用したりするのが一般的でしょう。

一方、エンタープライズ企業が ”本業” の翻訳にWEBサイトやアプリで利用する場合には、Google翻訳の現状のレベルでは弊害を生む可能性があります。ニューラルネットワークの特性上避けられない原因によって、クリティカルな誤訳やブランド価値を棄損してしまうような翻訳が発生してしまうおそれがあります。

今後数年から数十年でAIの進化により、機械翻訳エンジンの利用はさらに普及し、一般化していくでしょう。しかし、翻訳品質の評価は減点方式であり、1つの間違いがビジネス上、大きくネガティブな結果をもたらすことも想定されます。

これまでは、高いコストをかけた旧来の人力翻訳と、エンタープライズ企業のビジネスでは許容できないリスクを含んだ機械翻訳の2つの選択肢しかありませんでした。

前者については、人間の翻訳を支援するツールの開発や技術革新により、コストを低減させる試みが進んでいます。機械翻訳の精度の問題については、消費者が触れる機会を多く作ることで、多少の “誤訳”や “違和感” については許容範囲を広げてもらう対応、さらには、多少正確さに欠ける翻訳があったとしても、それを利用する消費者の行動を誤って誘導しないようにWEBサイトの使い勝手(MX)を最適化するなどの対応が求められています。

 

WEBサイトの翻訳には手間がかかる

WEBサイトの多言語化ニーズや現在の翻訳レベルなどを踏まえたうえで、企業がインターネットを通じてビジネスを多言語対応していく際の問題点を洗い出してみましょう。

ある企業が、既に日本語のWEBサイトを持っていて、これをもとに英語、中国語、韓国語のWEBサイトを構築するケースを想定します。まず多言語化の第1弾として、WEBサイトの「英語対応」を考えたとします。

従来だと、もとの日本語のWEBページのテキストを英語に訳したり、デザインを修正・変更したりするために、1ページ1ページ、イチからWEBページを作り直していきます。

つまり、もとの日本語版とは別に英語版WEBページを制作しなければならないのです。作るだけではなく、サーバやCMSなど、運用のためのシステムも新たに構築する必要があります。

現在、インターネット上で公開されているほとんどのWEBページは「HTML」で作成されています。HTMLはWEBページ内の各要素の意味や情報構造などを定義しているものです。

例えば自社のWEBページを従来の方法で日本語から英語に翻訳しようとするとき、企業の担当者はWEBページの長大なHTMLをダウンロードして翻訳会社に渡します。

翻訳会社は受け取ったHTMLを日本語版から英語版のプログラムに書き直して、「じゃあ、これをアップロードしてくださいね」と企業に返します。企業は翻訳会社から来たプログラムをシステムにアップロードして、英語の訳文をチェックしながら「こことここが間違っています」と指摘して、翻訳会社に差し戻します。

翻訳会社は指示された箇所を直して、また企業に戻して、企業はまたアップロードして・・・ということを延々と繰り返して、やがて、正しく英訳されたWEBページが完成するというわけです。この方法はやりとりが非常に面倒で、多大な時間とコスト(人件費)がかかります。

例えばアパレル関連のECサイトには商品の写真が掲載されていて、それぞれに「トップス(ジャケットやシャツ)」「ボトムス(ズボンやスカート)」といったタイトルが添えられています。

洋服なら世界中ほとんど共通の様式ですから、写真などのビジュアルは基本的に日本版のWEBサイトのままでも問題ないと考えられます。多言語化(英訳)しなければならないのは、「トップス」「ボトムス」などのテキスト部分です。

商品カテゴリーごとや商品1つひとつについて説明があるわけですから、その「膨大にあるプログラミング言語のHTML中からピンポイントに変更すべき部分を抽出できる技術」があれば、こうしたやりとりは一気に簡素化できます。

私たちが提供している技術は、「トップス」「ボトムス」などテキスト情報「のみ」をHTMLから抽出し、英語の「Tops」「Bottoms」に変換するというものです。情報構造の定義部分などほかのプログラムを書き直す必要がないので、作業効率が格段にアップする、という仕組みになっています。

言葉で説明すると簡単に思えますが、HTMLというのはある程度の共通した文法はあるものの、各企業のシステムによって、まちまちの書き方になっています。そのためWEBページに表れる「トップス」「ボトムス」などのテキストを表現しているプログラミング言語だけを抽出選別することは、そう簡単ではありません。

 

 

言語を増やすたびにまた最初から開発?

通常は、英語版の次に第2弾として「中国語」のページを作ろうとすれば、またイチから1ページ1ページ制作。第3弾として「韓国語」を増やそうとすれば、また最初から・・・と、それぞれの言語のWEBページの翻訳とシステム構築をイチからコツコツ積み上げて、多言語化を実施していきます。

大手企業が、必要性は認識しつつも、多言語にWEBサイトを対応させることに二の足を踏むのは、こうしたサイト構築にかかるコストの問題が背後にあります。

しかし、私たちが開発した「WOVN.io」では、第1弾の「英語」、第2弾の「中国語」、第3弾の「韓国語」と、対応する言語がいくつ増えたとしても、イチからシステムを開発する必要がありません。既にある日本語のWEBサイトに多言語化の機能を “後付け” することにより、実現するという仕組みを取っているからです。

 


この手法は、AのページとBのページを出し分ける「ABテスト」の技術を応用展開したものです。もとの「日本語」のWEBサイトを英語や中国語、韓国語のバージョンとして、システムを通して仮想表示しているようなイメージです。この手法により、膨大な工数をかけてイチから構築した場合と同様の多言語サイトを、膨大な開発コストをかけることなく構築しています。

従来の方法に比べて5分の1以下の作業量や期間、コストで多言語化したWEBサイトを作成できます。公開後も、新規ページは自動で追加できますし、対象WEBサイトの元言語(日本語)の更新情報を常に把握し、元言語のサイトで情報が更新されたら自動で多言語のページ(英語、中国語、韓国語)を更新し、煩雑な更新作業を飛躍的に減らしています。

 

エンジニアじゃなくても、多言語サイトのデザインができる

テキストだけでなく、デザイン(ビジュアル)に関しても、新たなアプローチを採り入れています。現在多くのWEBページでは、文字や文章をHTMLで、デザインはCSS(Cascading Style Sheets 、WEBページのスタイルを指定するための言語)で構成(定義)されています。

先にも説明した通り、HTMLはWEBページ内の各要素の意味や情報構造を定義するものです。他方のCSSは、文字のフォントの種類、色や大きさ、太字か細字か、アンダーラインをつけるかどうか、行間の幅など、文字や文の見栄えをどのように装飾するかなど、デザイン面の詳細について指定するものです。

従来は、テキストのフォントやフォントサイズを変えるのに、ページごとにプログラミングし直さなければならないため、ちょっとした変更があってもプログラマーでないと対応できませんでした。

WOVN.io では、こうしたコーディング(文字や画像などのデータを特定のコードに置き換えること)をすることなく、非エンジニアが管理画面からデザイン面の修正を容易にできるようになっています。結果、絶対数が不足して給与も高い「プログラミング専門のエンジニア」を雇用しなくても、デザインの崩れを防止する作業が可能となり、全体の作業時間とコストの大幅な削減につなげられるのです。

 

 

「動的ページ」の多言語化は難易度が高い

WEBページを多言語化する際、そのページが「静的ページ」(静的コンテンツ、静的サイト)か「動的ページ」(動的コンテンツ、動的サイト)かで、多言語化の難易度は大きく変わります。

静的ページとは、サーバー上に置かれているHTMLファイルが応答データとして送信され、そのままブラウザーに表示されるタイプのページです(つまり、いつも同じ表示がされるということです)。会社概要や事業内容といった企業の紹介ページなど、どのユーザーが見るときでも常に同じ内容を提供する場所に使われます。

静的ページは、呼び出されればいつも同じ内容を表示するため、多言語化は比較的簡単ですが、それでも従来の方法では、前述のようにかなりの時間とコストがかかってしまいます。さらに、動的ページを多言語化させようとすると、難易度は飛躍的に高まるのです。

動的ページとは、ユーザーがページにアクセスするたびサーバー上で処理が行われ、その結果を応答データとしてブラウザーに送信する方式です(つまり、同じページであっても毎回表示内容が違うページのことです)。

動的ページには、最新の記事を毎回表示する新着情報や、必須項目に記載がない場合に「エラー表示」を出すお問い合わせフォームなど、静的ページのように、同じ情報を表示するだけではない「動的要素」が含まれています。

 

WEBサイトの動的ページを多言語化する場合、この「動的要素」があることで、静的ページに比べてかなり複雑な処理が必要になりますが、なかでも大きな課題となるのが「ログイン」です。なぜ、「ログイン」があると多言語化が難しくなるのか、アパレルのECサイトを例に見てみましょう。

ユーザーのAさんが、ECサイトにアクセスして、パスワードを打ち込んでログインしたとします。するとAさんの名前が表示され、これまで購入した商品の履歴など、Aさんに関する情報を閲覧できます。

他方で、もしBさんがログインしたら、当然、Bさんの情報が表示されます。つまり、動的ページの場合は、同じWEBサイトであっても、ログインしたユーザーごとに、別の情報が表示されるのです。

当然、表示されるレコメンド(お薦め)情報も、AさんとBさんでは異なります。このようなことができるのは、動的ページの裏側に「データベース」があり、Aさんがログインしてきた場合はAさんのデータ、Bさんがログインしてきた場合はBさんのデータを呼び出しているからです。

このデータベースが関係する動的ページの多言語化は、ブラウザーに表示されている情報だけで成り立っている静的ページとは比べものにならないくらいに開発が複雑になり、難易度も高くなります。

データベース自体も多言語化する必要がありますし、そのデータベースとやりとりした情報の整合性がとれているかをチェックするプログラムも必要で、さらにそれが正しく作動しているかなどのテストも行わなければならないので、作業の量や期間、コストが桁違いに増えるのです。

 

フロント制御でデータベースの再構築が不要

この動的ページ特有の課題を解決するために、私たちは、データベースから来る情報をフロントで制御することで解決しました。「フロントで制御する」とはつまり、データベースの手前、システムのフロント(前部、上層部)で多言語化しているということです。

その結果、従来の多言語化のように、システムの奥にあるデータベースまで構築し直す必要はなく、データベースは変更せずに動的ページを多言語化するのです。この「フロントで制御する」というアプローチを採用することにより、イチから新たなシステムを開発するのではなく、もとの日本語のシステムに多言語化の機能を「後付け」できるシステムが作れるようになりました。

このようなサービスが実現した背景には「クラウドサービス」の進化があります。ひと昔前まで、何かITサービスを利用しようとすれば、企業がサーバなどの情報システムの設備を所有し、そこにパッケージソフトをインストールして管理・運用する必要がありました。

このような手法を自社運用型の「オンプレミス(on-premises)」と言いますが、これとは対照的な手法として、2000年代半ばから浸透し始めたのが「クラウドサービス」です。これはクラウド、つまりインターネット上にサーバを置いて、インターネットを介してITサービスを使うというものです。このクラウドサービスが一般化したことで「フロントで制御するアプローチ」が実現しました。

 

Sler(システム開発会社)はイチから作る演繹的アプローチ

システムを開発する手法(プロセス)は、大きく「演繹的アプローチ」と「帰納的アプローチ」に分けられます。

演繹的アプローチとは、システムに起こりうるさまざまなケースを詳細かつ大量に想定し「システムはこうあるべきだ」というゴールを設定して、そこを目指して、システムを構築していく手法です。

大企業のシステム構築は、この演繹的アプローチによる開発が多いと言われています。換言すれば、ある課題のソリューションとして新規にシステムを構築する場合、まず実際に直面している困りごとや将来的に遭遇する可能性のある不具合などを数千から数万といった規模で集めてきて、それらのすべてに汎用的に対応できるシステムを開発するということです。

この手法で構築されたシステムの特徴は、システムの規模が大きく、かつ複雑になることです。

実際の開発に膨大な作業と時間とコストがかかるデメリットがある反面、一度構築してしまえば、最初に想定された範囲内であれば、大抵の問題や課題に対応できるというメリットがあります。言語という意味では、日本人用に構築されたシステムなら日本語で使用する限り、問題も不具合も最小限に抑えることができます。

逆に言えば、想定外の課題が発生した局面では、その課題を解決するために新たにシステムを構築し直す必要が生じます。この点、現在多くの企業が直面している「多言語化」こそが、まさしく「開発当初は想定されていなかった課題」なのです。大企業のシステムは演繹的アプローチで作られているため、「多言語化」に対応しようとすると、多大なコストがかかることは想像に難くありません。

 

スタートアップだからできる帰納的アプローチ

「多言語化」のような新たな機能を開発する際、最も重要なプロセスの1つが「稼働しているシステムで、新たに追加した機能が正常に作動しているか」のテストです。動いていないサイトで新機能が正常に動いたところで、実際のシステム上で正常に作動しなくては、何の意味もありません。

しかし現実問題として、既に膨大な数のユーザーがいて、1日のアクセスが何万、何億PVもあるようなWEBサイトでは、「うまく動かないかもしれない」テストを行うなど、できるはずもありません。よって必然的に、すべてのケースを想定した汎用的なシステムを「演繹的アプローチ」によって構築せざるをえなくなります。

しかし、スタートアップである Wovn Technologies は、多種多様な多言語化のさまざまな困りごとや課題について、リスクを最小限に抑えたテストを繰り返しながら、1つひとつ、クライアントと一緒に解決することを強みとしています。この「さまざまな多言語化の課題解決に取り組む」ためには、必然的に帰納的アプローチを採用せざるをえません。

帰納的アプローチによる多言語化の課題解決を、クライアント企業のWEBサイトで試した実績と知見が蓄積されていくと、新たなクライアント企業の多言語化に取り組むときも「この課題には、あの方法が有効だ」「この問題は、あの技術を応用すればクリアできる」とソリューションに到達できるスピードが加速し、解決法のバリエーションも増え、さらなる実績と知見が蓄積されるというサイクルが生まれました。「依頼された問題や課題の解決ありき」という帰納的なアプローチをくり返し、いろいろな局面を克服していくうちに、それが経験値になり、どんな局面に対しても「柔軟性」を持つようになったのです。

 

どんなWEBサイトでもOK、高い柔軟性

WEBページを構築するHTMLやCSSも含めたプログラミング言語は、日進月歩で開発が進み、多様化しています。しかし、この「プログラミング言語の多様性」こそが、どんなシステムでも多言語化できる汎用技術の開発を困難にしているのです。

現代のITは、計り知れないスピードで進歩しています。新しい技術が出てくれば、新しいルールが適用され、そのルール変更に合わせて、イチからシステムを構築し直すことは、現実的ではありません。

WOVN.io は数多くのWEBを多言語化する過程で、ほとんどのプログラミング言語の多言語化に成功しています。また WOVN.io が提供する多言語化は、もとのシステムを再構築する必要がないので、新たな技術を導入しやすく、また新たなルールに合わせるためには、フロントを制御している技術をチューニングするだけで対処できます。

 

 

枯れた技術で信頼性と安定性を担保

技術者の間では、「枯れた技術」という言葉がしばしば使われます。これは「既に広く使われていて、安定性や信頼性が検証済みの技術」という意味です。WOVN.io は、「インターネットにおける枯れた技術の水平思考」を体現したものです。

世の中のあらゆる製品は、基礎研究、応用研究、実用化というフェーズを通過して世の中にリリースされます。「枯れる前の技術」というのは、世の中に普及する前、つまり実用化される前の技術とも言えます。

基礎研究では、それまで誰も知らなかったものが発見され、世の中になかった新しい技術が発明されます。応用研究では、その技術を利活用するにはどうすればいいのか、どんな応用事例が考えられるのか、などについて研究を進めます。実用化の段階に入ると、ビジネス化するためのPoC(Proof of Concept :試作開発の前に行う検証やデモンストレーション)や実証テストを繰り返します。

これらの工程を経て、技術は、世の中に普及するタイミングで「壊れない」「耐久性がある」という特徴を兼ね備えます。つまり「枯れた技術」には「バグ(プログラムの誤り)が出なくて、安定稼働できる」という信頼性と安定性が担保されているのです。

WOVN.io はこうした信頼性と安定性の高い「枯れた技術」を、新しいアイデアと組み合わせることで実現しています。これにより「(従来に比して)安価で簡単なWEB多言語化」という革新的なサービスを、大きなバグを出すこともなく安定的に稼働させられるのです。



コラム:コーパスは資産になる

企業は通常、会社名や部署名、商品名など、企業独自に定めた外国語の正式表記名を有しています。またキャッチフレーズや言い回しなど、独自の表現に対する正確なコーパス(対訳データ)も生成しているでしょう。

そこで質問ですが、そのコーパスは国内外のグループ企業間や関連会社、取引先などと連携して適正に使用されているでしょうか。英語版の自社サイトを見て、商品名や部署名、固有名詞が誤って表記されていることに後から気づくという話もよく聞きます。

翻訳会社のこれまでの対訳の作り方は、エクセルで日本語の単語とそれに対する英語訳の一覧を作成し、毎年新しい単語をアップデートするという作業を繰り返すものでした。しかし、言葉の使い方は変化し、年々積み重なるリストはだんだんと膨大になり、人頼みの管理では限界があります。

現在の機械を利用した翻訳は、機械翻訳したものを最終的に人力で修正するMTPEと Google翻訳のように人間の手を使わず、ニューラルネットワークを使用した機械のみによる機械翻訳の2つの方法があることは本文で紹介しました。

その際どちらにも共通するのが、取り扱えるデータはインターネットにある情報に限定されるということ、誤った翻訳も集積されてしまうというウィークポイントです。

AI(人工知能)を使った機械翻訳には大量の正確なデータが必要です。

機械翻訳を開発している企業や研究機関では、企業が有する正確なコーパスの情報量が足りないという課題を抱えており、お金を払って対訳データを購入しているところもあります。つまり、企業が保有する対訳は資産価値を持つことになるのです。

そのため(もちろんデータを販売することが主目的ではないですが)、コーパスなどをお持ちの企業は、業界、企業、部署単位で生成された対訳を多言語でまとめて管理しておくことをお勧めします。



おわりに 「社会課題としての多言語時代対応はチャンス」に続きます。