コーパス開発センター「コーパスとしてのウェブテキスト活用シンポジウム」（2018年9月6日(木) 13:00～17:00、国立国語研究所 2階講堂、要事前申込）

Share on Tumblr

研究会情報です。

●公式サイトはこちら
http://pj.ninjal.ac.jp/corpus_center/lrw2018-symposium.html
 --------------------

日　時：2018年9月6日(木) 13:00～17:00
会　場：国立国語研究所 2階講堂
　　　東京都立川市緑町10−2（アクセス）

　　　■ JR「立川駅」まで： JR中央線「東京駅」から快速で約50分
　　　■ JR「立川駅」から：
　　　　○ 多摩モノレール「立川北駅」乗車（約3分）「高松駅」下車，「高松駅」より徒歩約7分
　　　　○ 立川駅北口バスのりば2番から乗車（約5分）「自治大学校・国立国語研究所」下車
　　　　○ JR「立川駅」より徒歩約20分
参加費：無料
主　催：国立国語研究所コーパス開発センター

■講演者（敬称略）と講演依頼内容（講演タイトルではありません）
前半戦：日本語研究に大規模ウェブテキストデータを扱うためには？
【初級編】ウェブの検索結果を利用する　荻野綱男（日本大学）
【中級編】ウェブコーパスを利用する　岡照晃（国立国語研究所）
【上級編】自分でウェブをクロールする　林部祐太
後半戦：企業は大規模ウェブテキストデータをどのように活用しているか？
　不満調査データセットの収集・公開や分析、利用例についてなど　三澤賢祐（Insight Tech）
　Wikipediaの活用に関する取り組み　山田育矢（Studio Ousia）

【開催趣旨

ウェブをクロールし、大量のテキストを集め利用することは情報系の分野では既に当たり前の手法となっている。ただしそれを実践するには、ウェブをクロールするための知識・技術、そしてクロール及びクロールしたテキストデータを保存しておくサーバ運用のノウハウも不可欠なため、分野外の、特にコーパスを扱う日本語研究者が、ウェブを対象とした研究を行う際の高いハードルとなっていた。

しかし、近年になって『筑波ウェブコーパス』や『国語研日本語ウェブコーパス』といった日本語のウェブテキストコーパスが登場したことにより、個人がウェブをクロールせずとも、大規模なウェブテキストを日本語研究の対象とすることが可能となった。

半面、"ウェブテキスト"というこれまで日本語研究の分野で積極的に利用されてこなかったデータの中には、新聞記事や書籍を対象としていた頃には現れなかったような、さまざまな留意点・注意事項が暗黙的に潜んでいる。

そこで本シンポジウムでは、

１）　これからウェブコーパスやウェブ上にあるテキストをコーパスとして利用したい、もしくはすでに利用している研究者、エンジニア、企業関係者を聴衆として招き、

２）　ウェブ上のテキストをどのように研究や事業・サービスに導入するのか？ or しているのか？

３）　またウェブテキストを実際に活用した応用事例・分析方法を講演者らが紹介していく中で、それらを扱う際の留意点・注意事項に関するノウハウを聴衆に提示し、講演者と聴衆の間でのセオリーの共有・確立を図ることを一番の目的としている。】