宇佐美まゆみ監修(2018)『BTSJ日本語自然会話コーパス(トランスクリプト・音声)2018年版』について
国立国語研究所では、機関拠点型基幹研究プロジェクト「日本語学習者のコミュニケーションの多角的解明」、サブ・プロジェクト「日本語学習者の日本語使用の解明」(リーダー:宇佐美まゆみ)の研究成果として、『BTSJ日本語自然会話コーパス(トランスクリプト・音声)2018年版』1を公開します。
1. 公開の目的
近年、自然会話分析が数多く行われるようになり、話し言葉コーパスも様々な種類のものが公開されるようになりつつあります。しかし、形態素解析や構文分析、音声学的分析等のためだけではなく、人間の相互作用としての「言語運用」の語用論分析に適した形で文字化され、蓄積された「自然会話のコーパス」は、未だほとんどないのが現状です。しかし、会話の収集、文字化といった基礎的作業には多大な時間と労力を要するからこそ、自然会話分析研究を効率的に進めていくためには、自然会話データを研究者間で共有化することが必須です。このような状況を受けて、本コーパスは、自然会話データを研究者間で共有化することによって、自然会話データを用いた研究を促進することを企図しています。
2. 本コーパスの特徴
本コーパス構築のもう一つの目的は、未だ存在しない「相互行為としての会話」の対人コミュニケーション論、語用論的分析に適したコーパスを構築することです。そのために、以下の3点を重視しました。①「言語社会心理学的アプローチ」(宇佐美1999)2、「総合的会話分析」(宇佐美2008)3の方法論に基づき、会話参加者の年齢、性別、話題などを統制したデータ群を収録する。②発話の重なりや沈黙など、語用論的分析に不可欠な情報を記して細やかな定性的分析を可能にするとともに、各研究者が独自の観点から分析項目のコーディングや集計などの定量的分析を行うことができる文字化のルールである「基本的な文字化の原則」(BTSJ:Basic Transcription System for Japanese)によって文字化したトランスクリプトを収録する。③「人間の相互作用としての会話の分析」は、「会話自体」の分析のみならず、「録音された会話以外の社会的要因」の分析も重視する。そのため、各会話グループのデータ収集条件や話題、話者の年齢・性別・職業、その他の属性の情報も提供する。
このように、当コーパスに収録された会話は、グループごとに、収集の目的や、会話の条件が統制されているため、グループごとの目的・条件を確認し、研究目的に応じて、話者の属性(年齢、性別等)や対話相手との関係などの、話者の話し方に大きな影響を与える社会的要因を考慮に入れた分析が可能です。これが、本コーパスの最大の特徴であると言っても過言ではないでしょう。
本コーパスの公開の最大の目的は、未だ質的分析に留まっている「言語運用」に重きをおいた「語用論的研究」の妥当性や信頼性を高めるために、より多くの条件統制されたデータでその知見を計量的にも検証できるようにし、人間の相互作用、言語運用に重きをおく「語用論的研究」の幅を広げ、大量データの形態素解析などのような言語形式の機械的な分析だけではなく、話者間の上下、親疎関係などの実際の言語運用と人間関係の構築に極めて重要な情報や、文レベルを超えた談話の流れ(文脈)を十分に考慮した分析を促すことによって、自然会話をデータとする言語運用、人間の相互作用の研究の発展を促進することです。ただし、もちろん、計量的分析、形態素解析等を活用した研究にも、ご活用いただければと思います。この人間の相互作用の分析に適した形の本コーパスが分野を問わず広く利用され、自然会話をデータとする言語運用研究、言語研究の発展の一助となることを願っています。
3. 本コーパスの前身からの拡張、改訂点について
宇佐美研究室4では、多様な場面・言語(日本語、韓国語、中国語、英語など)の自然会話データを収集し、『BTS(Basic Transcription System)による多言語話し言葉コーパス』の構築に取り組んできました。2011年までに、研究成果として公開していたコーパスは以下の4つです。
1.『BTSによる多言語話し言葉コーパス-日本語会話1(日本語母語話者同士の会話)2007年版』116会話、1435分54秒(約24時間)
2.『BTSによる多言語話し言葉コーパス-日本語会話2(日本語母語話者と学習者の会話)2007年版』35会話、691分11秒(約11時間)
3.『BTSJによる日本語話し言葉コーパス-日本語会話1(初対面・友人、雑談・討論・誘い)』99会話、1604分(約27時間)
4.『BTSJによる日本語話し言葉コーパス(トランスクリプト・音声)2011年版』294会話、4000分31秒(約66時間)(上記①から③のコーパスに、新たに44会話(約4時間)のトランスクリプト・音声データを追加。また、既存のトランスクリプトに音声データ92会話(約14時間)を追加)
この度、国立国語研究所のプロジェクトとして、上記4のコーパスに、新たに39会話753分15秒(約12時間)のトランスクリプトと音声データを追加し、また、既存のトランスクリプトに、音声データ24会話401分5秒(約6時間40分)を追加し、公開することになったのが、本コーパスです。合計333会話、総時間4746分24秒(約79時間)の会話が収録されており、そのうち音声付きデータは203会話、2402分22秒(約40時間)です。
整備にあたっては、話者記号などを話者や会話の特徴がより分かりやすい記号に変更し、トランスクリプトの記号の表記は『基本的な文字化の原則(BTSJ: Basic Transcription System for Japanese)2015年改訂版』に統一するなど、全面的に改訂を行いました。(話者記号の詳細は、コーパスに付随して提供されている「本コーパスに収録されているデータの情報一覧」というエクセルファイルのシート「話者情報の注(話者記号の説明)」などをご参照、ご確認ください。
また、当コーパスに収録された会話には、グループごとに、収集の目的や、話者や会話の条件が記されています。「本コーパスに収録されているデータの情報一覧」(エクセルファイル)で、会話グループごとの目的や条件を確認し、各人の研究目的に応じて使用することを推奨します。また、グループデータ情報の詳細については、4.の表1『BTSJ日本語自然会話コーパス(トランスクリプト・音声)2018年版』に収録されている会話データの概要」をご参照ください。また、更に詳しい情報に関しては、コーパス内の「本コーパスに収録されているデータの情報一覧」というエクセルファイルのシート「会話グループ情報」をご参照ください。
4. 本コーパスの概要と活用法
本コーパスに収録されている会話は、会話参加者の年齢、性別、話題などが統制された形で集められていますので、様々な観点から比較・対照研究ができるようになっています。会話データは、収集の条件や研究目的ごとに、ひとつの「会話グループ」のフォルダに入っています。
また、BTSJの背景理論となる言語社会心理学、及びその方法論である「総合的会話分析」では、会話自体の分析のみならず、データの収集法、被験者の属性調査など、「録音された会話」以外の部分の分析も、人間の相互作用としての「会話分析」のために、極めて重要だと捉えています。各会話グループの実験計画や話者の年齢・性別・属性等のデータも入っていますので、是非、分析にご活用ください。
表1に、本コーパスの概要を示します。
表1『BTSJ日本語自然会話コーパス(トランスクリプト・音声)2018年版』に収録されている会話データの概要
本コーパスにおける会話の通し番号:本コーパスすべての会話(333会話)の通し番号
会話グループ番号:本コーパスにおける会話グループの通し番号
会話グループ名:データを収集した人がつけた会話グループの名前
各グループのデータの特徴:データを収集したときの条件などを簡潔に示したもの
会話の 通し番号 | 会話 グループ 番号 | 会話 グループ名 | 各グループの データの特徴 | 各グループ内の データ数 | 各グループの 総会話時間 | 音声の 有無 |
---|---|---|---|---|---|---|
001-019 | 01 | 親しい同性友人同士(男女)の雑談 | 同性の友人同士の会話 | 19会話 | 444分24秒 | 無 |
020-042 | 02 | 初対面と友人同士の女性の雑談 | 女性の、親しい友人同士と初対面の会話 | 23会話 | 482分5秒 | 無 |
043-052 | 03 | 論文指導 | 教師と学生の面談の会話 | 10会話 | 311分 | 無 |
053-091 | 04 | 女性同士の断りの電話会話 | ある学生(女性)をベースに、電話で、先輩・同輩・後輩に依頼の電話をかけた会話 | 39会話 | 78分31秒 | 有 |
092-111 | 05 | 同性同士男女の依頼を含む電話会話 | 同性の友人同士の会話 | 20会話 | 53分02秒 | 無 |
112-116 | 06 | 友人同士の女性の雑談 | 女性の友人同士の会話 | 5会話 | 80分41秒 | 無 |
117-120 | 07 | OPIインタビュー | OPIインタビュー形式に基づく、フランス語母語話者の縦断データ | 4会話 | 41分25秒 | 有 |
121-129 | 08 | 韓国人学習者(中級)と日本人の初対面雑談 | 韓国人日本語学習者の接触場面データ | 9会話 | 249分 | 無 |
130-141 | 09 | 台湾人学習者(上級)と日本人の初対面雑談 | 台湾人日本語学習者の接触場面データ | 12会話 | 234分20秒 | 無 |
142-151 | 10 | 台湾人学習者(上級)と日本人の友人の雑談 | 台湾人日本語学習者の接触場面データ | 10会話 | 173分30秒 | 有 |
152-160 | 11 | 初対面女性ベース雑談(接触、母語)その1 | 20代前半の日本人女性(学生)が、対同世代の日本人女性、対日本語中級話者、対日本語超級話者と3通りの会話を行っている | 9会話 | 159分48秒 | 有 |
161-172 | 12 | 初対面女性ベース雑談(接触、母語)その2 | 20代前半の日本人女性(学生)が、対同世代の日本人女性、対日本語初級話者、対日本語上級話者と3通りの会話を行っている | 12会話 | 120分11秒 | 無 |
173-190 | 13 | 初対面男性ベース雑談(性差、年齢差) | 35歳男性が、年上(45歳)・同等(35歳)・年下(25歳)の話者(男/女)と6通りの会話を行っている | 18会話 | 299分15秒 | 有 |
191-206 | 14 | 初対面同性同士雑談(男、女) | 20代前半大学生・大学院生、初対面の雑談 | 16会話 | 268分55秒 | 有 |
207-209 | 15 | 友人同士女性雑談 | 20代女性学生、親しい友人同士の雑談 | 3会話 | 63分37秒 | 無 |
210-257 | 16 | 友人同士男女(雑談、討論) | 日本語母語話者、10代後半から20代前半の大学生、ベース話者男女各6名が、「同性/異性」の友人と、「雑談/討論」という4通りの会話を行っている | 48会話 | 749分55秒 | 有 |
258-262 | 17 | 友人同士男女間討論 | 20代-30代学生、友人同士の討論 | 5会話 | 88分16秒 | 無 |
263-266 | 18 | 初対面女性討論 | 20代女性、大学生・大学院生、初対面の討論 | 4会話 | 44分33秒 | 無 |
267-274 | 19 | 友人同士女性誘い | 20代大学生友人同士。話者の一方が協力者である。協力者が「気軽に行うこと」を誘うように依頼した。 | 8会話 | 172分53秒 | 無 |
275-286 | 20 | 初対面女性雑談(母語・接触) | 日本語母語話者同士の会話と、日本語母語話者と日本語学習者の会話 | 12会話 | 186分20秒 | 有 |
287-318 | 21 | 謝罪の会話 | 2人の話者が、負担度の軽い場合と重い場合の2つの謝罪場面についてロールプレイを行っている。 | 32会話 | 76分19秒 | 有 |
319-328 | 22 | 中国人女性学習者(初級、上級)と日本人友人同性同士雑談 | 中国人日本語学習者(初級5名、上級5名)と日本語母語話者の女性友人同士の雑談 | 10会話 | 262分44秒 | 有 |
329-333 | 23 | 初対面及び友人同士雑談(女性同士) | 20代前半、女子大学生同士の雑談(初対面2組、友人3組) | 5会話 | 106分 | 有 |
計 | 333会話 | 4746分24秒 (約79時間) |
- データ提供者は、以下の方々です(50音順)*クリックで表示
- 李恩美、伊集院郁子、宇佐美まゆみ、カチマレク・ミロスワバ、北見奈津子、木林理恵、金銀美、木山幸子、仇暁妮、黄瓊芸、施信余、鈴木(伊藤)麻美、鄭賢児、関崎博紀、蘇玉萍、高森絵美、張鈞竹、鄭榮美、藤田朋世、松本剛次、松本紫帆、宮武かおり、林君玲(50音順・敬称略)
5. 本コーパスの引用について
宇佐美まゆみ監修(2018)『BTSJ日本語自然会話コーパス(トランスクリプト・音声)2018年版』を利用した研究を、論文等、何らかの形で発表する際は、必ず、以下の正式名称を、出典として明記してください。
【引用文献リストや資料リスト等に記載する場合】
<日本語の場合>
宇佐美まゆみ監修(2018)『BTSJ日本語自然会話コーパス(トランスクリプト・音声)2018 年版』、国立国語研究所、機関拠点型基幹研究プロジェクト「日本語学習者のコミュニケーションの多角的解明」、サブ・プロジェクト「日本語学習者の日本語使用の解明」(リーダー:宇佐美まゆみ)
<英語の場合>
USAMI, Mayumi (ed.) (2018) BTSJ Natural Conversation Corpus with Transcripts and Recordings (2018), NINJAL Institute-based projects: Multiple Approaches to Analyzing the Communication of Japanese Language Learners, Sub-project: Studies on the language use of Japanese language learners, leader: Mayumi Usami.
それでは、本コーパスが、少しでも皆さんのご研究のお役に立つことができれば幸いです。
本コーパスに関する問い合わせ先
国立国語研究所 日本語教育研究領域
BTSJ日本語自然会話コーパス配布係 btsjcorpus@ninjal.ac.jp
附記:
本コーパスは、平成23-26年度科学研究費補助金基盤研究A(課題番号23242027)「自然会話リソースバンク構築による世界的教材共有ネットワーク実現のための総合的研究」(研究代表者:宇佐美まゆみ)の支援を得て構築したものを、2016年より国立国語研究所のプロジェクトとして引継ぎ、データ整備を行った形で公開するものである。また、一部、平成30-33年度科学研究費補助金基盤研究A (課題番号18H03581)「語用論的分析のための日本語1000人自然会話コーパスの構築とその多角的研究」(研究代表者:宇佐美まゆみ)の支援を得ている。
The building of this corpus was supported by Grant-in-Aid for Scientific Research (A):The global study for worldwide sharing network building of teaching materials based on natural conversation resource bank: Leader Mayumi Usami, 23242027, 2011~2014, and partially supported by Grant-in-Aid for Scientific Research (A): Building of a Japanese 1000 person natural conversation corpus for pragmatic analyses and its multilateral studies: Leader Mayumi Usami, 18H03581, 2018~2021
- 本コーパスは、平成23-26年度科学研究費補助金基盤研究A(課題番号23242027)「自然会話リソースバンク構築による世界的教材共有ネットワーク実現のための総合的研究」(研究代表者:宇佐美まゆみ)の支援を得て構築したものを、2016年より国立国語研究所のプロジェクトとして引継ぎ、データ整備を行った形で公開するものである。また、一部、平成30-33年度科学研究費補助金基盤研究A (課題番号18H03581)「語用論的分析のための日本語1000人自然会話コーパスの構築とその多角的研究」(研究代表者:宇佐美まゆみ)の支援を得ている。
The building of this corpus was supported by Grant-in-Aid for Scientific Research (A):The global study for worldwide sharing network building of teaching materials based on natural conversation resource bank: Leader Mayumi Usami, 23242027, 2011~2014, and partially supported by Grant-in-Aid for Scientific Research (A): Building of a Japanese 1000 person natural conversation corpus for pragmatic analyses and its multilateral studies: Leader Mayumi Usami, 18H03581, 2018~2021 - 宇佐美まゆみ(1999)「談話の定量的分析 -言語社会心理学的アプローチ-」『日本語学』18(11)、明治書院: 40-56.
- 宇佐美まゆみ(2008)「相互作用と学習ーディスコース・ポライトネス理論の観点から」西原鈴子・西郡仁朗編『講座社会言語科学 第4巻 教育・学習』、ひつじ書房:150-181
- 2007年~2015年は東京外国語大学、2016年以降は国立国語研究所で構築・整備を行っている。