Google Cloud Platform Japan 公式ブログ: Cloud Natural Language API で非構造化テキストを構造化する

Cloud Natural Language API で非構造化テキストを構造化する

2016年8月29日月曜日

* この投稿は米国時間 8 月 15 日、Developer Programs Engineer である Jerjou Cheng によって投稿されたもの（投稿はこちら）の抄訳です。
Google Cloud Natural Language APIエンティティその他の情報Google BigQueryデモWikipedia APIApp EngineAndroid Operating System

エンティティをクリックすると、分析は少し深くなり、同じタイプの “related“（関連する）エンティティのグラフが表示されます。この場合の “relatedness”（関連性）は Wikipedia コーパス全体で計算され、両方のエンティティが現れる記事の数を数えます。

消費財のエンティティの場合、こうした関連性から類似商品に関する知見が得られることがよくあります。その証拠として “Android” をクリックすると、次のグラフが表示されます。

これをどのようにして計算したのか、以下で見ていきましょう。

手品の種は前処理ステップにあります。このデモでは Wikipedia の記事を処理していますが、タイムスタンプ付きのニュース記事、顧客フィードバック、その他任意のコーパスの場合も、原則として同じ処理を実行できます。

データ分析の柔軟性をできる限り確保するため、私たちはすべての記事にエンティティ検出と感情分析を適用し、得られた構造を直接保存しています。Google Cloud Platform では、Cloud Dataflow と BigQuery を組み合わせることで、これをすっきりとしたプロセスにまとめています。

最初に、Wikipedia の XML dump に軽く前処理をかけ、XML をパースおよびマークダウンし、Wikipedia メタページをフィルタリングします。

     def parse_xml(xml):    
         page = etree.fromstring(xml)    
         children = dict((el.tag, el) for el in page)    
         if 'redirect' in children or \            
                 WIKIPEDIA_NAMESPACES.match(children['title'].text):        
             raise StopIteration()    
         revisions = (rev.text for rev in children['revision'].iter('text'))    
         yield {        
             'article_id': children['id'].text,        
             'article_title': children['title'].text,        
             'wikitext': revisions.next(),    
         }

     def parse_wikitext(content):
         text = content['wikitext']
         parsed_md = mwparserfromhell.parse(content['wikitext'])
         content['text'] = _strip_code(parsed_md)
         yield content

     p = apache_beam.Pipeline(argv=pipeline_args)
     value = p | apache_beam.Read('Read XML', 
     custom_sources.XmlFileSource('page', gcs_path))
     value = value | apache_beam.FlatMap('Parse XML and filter', parse_xml)
     value = value | apache_beam.Map('Wikitext to text', parse_wikitext)
     ...

Cloud Dataflow は、このパイプラインを自動的に並列実行します。53 GB におよぶ未加工の XML を 500 万以下のテキストのみの記事に変換するには 1 時間ほどを要します。

次に、この記事群を Natural Language API に通します。そして、すべてのエンティティを出力し、記事の感情とその他のメタデータを結合して BigQuery に格納します。

     def analyze_entities(content):
         analysis = language.annotate_text(
             content['text'], extract_entities=True,
             extract_document_sentiment=True)

         sentiment = analysis.get('documentSentiment', {})
         for entity in analysis.get('entities', []):
             entity_dict = {
                 'article_id': content['article_id'],
                 ...            
                 'article_sentiment_polarity': sentiment.get('polarity'),
                 'entity_name': entity['name'],
             }
             yield entity_dict

     value = value | apache_beam.FlatMap('Entities', analyze_entities)
     value = value | apache_beam.Write(
         'Dump metadata to BigQuery', apache_beam.io.BigQuerySink(
             destination_table,
             schema=', '.join([
                'article_id:STRING',            
                 ...
                'article_sentiment_polarity:FLOAT',
                'entity_name:STRING',
            ]),
            ...)))

以上で、構造化されていないテキストから構造化データを作ることができました。

BigQuery で得られる知見

定義された構造をテキストブロップが持つようになれば、BigQuery などのツールを適用できます。それまで不透明なテキストブロッブだったものにクエリを発行し、今まで決して手に入らなかったような知見を得られるかもしれないのです。こうしたことは、特に手作業での処理が困難な巨大なデータセットの場合にはとても考えられませんでした。

このデータでできることを少しだけ見てみましょう。下記の単純なクエリを実行すると、Wikipedia で最も言及されているエンティティを記事数順に 5 個抽出できます。

      SELECT top(entity_name, 5) as entity_name, count(*) as num_articles
      FROM [nl-wikipedia:nl_wikipedia.nl_wikipedia];

順位	entity_name（エンティティ名）	num_articles（記事数）
1	United States	653420
2	English	591128
3	American	562490
4	British	336654
5	London	325461

もっとも、英語版の Wikipedia が英語に関連するエンティティを頻繁に取り上げるのは、ごく自然なことです。私たちが興味をそそられるのは、こうした国民国家のことよりも、たとえば消費財のことではないでしょうか。であれば、次のようなクエリを送りましょう。

     SELECT top(entity_name, 5) as entity_name, count(*) as num_articles 
     FROM [nl-wikipedia:nl_wikipedia.nl_wikipedia]
     where entity_type = 'CONSUMER_GOOD';

順位	entity_name（エンティティ名）	num_articles（記事数）
1	Windows	14610
2	iTunes	13281
3	Android	6020
4	Microsoft Windows	5754
5	PlayStation 2	5301

この結果からは、Wikipedia の住人がどんな製品について執筆しているのかがわかります。ただし、製品に触れている記事の数だけでは、その製品がどのように見られているかはわかりません。幸いなことに、私たちの前処理パイプラインは記事から感情も抽出しています。それを使って、私たちのコーパスにおいて、どの製品が最も好意的に描かれているかを調べましょう。

     　　　　　SELECT entity_name, sum(article_sentiment_polarity) as sentiment
     FROM [nl-wikipedia:nl_wikipedia.nl_wikipedia]
     where entity_type='CONSUMER_GOOD'
     and entity_salience > .5
     group by entity_name
     order by sentiment desc 
     limit 5

順位	entity_name（エンティティ名）	sentiment（感情）
1	NASCAR	1.8
2	SRX	1.5
3	Sugar	1.2
4	Formula One	1.1
5	iPod Touch	1.1

注意 : 上のクエリには entity_salience、すなわちエンティティが記事内でどれくらい重要かを示す値（0 ～ 1）によるフィルタも含まれています。つまり、エンティティが何かのついでに触れられているだけなら、記事全体の感情はエンティティを反映したものにはならないということです。

与えられた消費財と関連性の深いエンティティを見つけるため、前述のデモアプリに含まれている関連エンティティクエリ（related-entities query）を実行することも可能です。

           select top(entity_name, 5) as entity_name, count(*) as num_articles
     from [nl_wikipedia.nl_wikipedia]
     where article_id in (    
         SELECT article_id    
         FROM [nl_wikipedia.nl_wikipedia]    
         where entity_name like '%Android%')
     and entity_name not like '%Android%'
     and entity_type = 'CONSUMER_GOOD'

順位	entity_name（エンティティ名）	num_articles（記事数）
1	iOS	2733
2	iPhone	2035
3	Windows	1543
4	iPad	1223
5	Windows Phone	841

Natural Language API の美点は、ここで取り上げたようなユースケースに用途が限定されるわけではなく、エンティティ、感情、構文の構造を広く一般的に出力し、通常のツールセットで存分に分析できるようにすることです。ぜひ、皆さんのユースケースで Natural Language API を試していただき、何が実現できるのかを確かめてください。

このデモの処理パイプラインのコードは、こちらから入手できます。App Engine アプリのコードはこちらにあります。また、この投稿で使用したその他の Google テクノロジーについても、ぜひチェックしてみてください。

Natural Language API : エンティティ、感情、構文の検出
BigQuery : 任意のビッグデータを対象にしたアドホックなデータ分析
Cloud Dataflow : 簡単な分散データ処理
Google Cloud Storage : ファイルストレージとスクラッチスペース
App Engine : ウェブアプリケーションサービスの提供

- Posted by Jerjou Cheng, Developer Programs Engineer

Google Cloud Platform Japan Blog

Cloud Natural Language API で非構造化テキストを構造化する

0 件のコメント :

コメントを投稿

12 か月間のトライアル

Labels

Archive

Feed

Company-wide

製品・サービス

デベロッパー