Korpus Variasi Bahasa Melayu: Standard Lisan

April 3, 2025 · View on GitHub

Rujukan

  • (NorHashimah)
    • (2003)
      Nor Hashimah Jalaluddin. 2003. Bahasa dalam Perniagaan: Satu Analisis Semantik dan Pragmatik. Kuala Lumpur: Dewan Bahasa dan Pustaka.
    • (2005)
      Nor Hashimah Jalaluddin, Harishon Radzi, Maslida Yusof, Raja Masittah Raja Ariffin dan Sa’adiah Ma’alip. 2005. Sistem Panggilan dalam Keluarga Melayu: Satu Dokumentasi. Kuala Lumpur: Dewan Bahasa dan Pustaka.
  • Hiroki Nomoto. 2018. Korpus Variasi Bahasa Melayu: Standard Lisan.
  • (Untuk anotasi pengganti ganti nama [pronoun substitute])
    Nomoto, Hiroki, Ryuko Taniguchi, Shiori Nakamura, Yunjin Nam, Sri Budi Lestari, Sunisa Wittayapanyanon (Saito), Virach Sornlertlamvanich, Atsushi Kasuga, Kenji Okano dan Thuzar Hlaing. 2023. Pronoun substitute annotation in seven Asian languages. Proceedings of the Twenty-Ninth Annual Meeting of the Association for Natural Language Processing, 2242-2247.
  • (Untuk anotasi ganti nama kosong)
    Nomoto, Hiroki, Farhan Athirah binti Abdul Razak dan Kohei Fujita. 2025. Zero pronoun annotation in Malay and beyond. Proceedings of the Thirty-First Annual Meeting of the Association for Natural Language Processing, 391-396.

Lesen

Creative Commons Attribution 4.0 International (CC BY 4.0)

Isi kandungan

FailTopikJenisDurasiJumlah tokenID penuturTempat asal penutur
KL201701Musang dan gagak (dengan gambar)Monolog2:212351Johor
KL201702Musang dan gagak (tanpa gambar)Monolog1:301821Johor
KL201703Musang dan gagak (sebagai watak)Monolog1:271821Johor
KL201704Musang dan gagak (dengan gambar)Monolog1:311752Johor
KL201705Musang dan gagak (tanpa gambar)Monolog1:191652Johor
KL201706Musang dan gagak (sebagai watak)Monolog1:091452Johor
KL201707Cerita gembiraMonolog1:031352Johor
KL201708Cerita sedihMonolog0:511032Johor
KL201709Cerita rakyatMonolog3:264172Johor
KL201710Cerita gembiraMonolog1:211811Johor
KL201711Cerita sedihMonolog1:251611Johor
KL201712Cerita rakyatMonolog3:073781Johor
KL201713Cerita gembiraMonolog0:551293Kuala Lumpur
KL201714Cerita sedihMonolog1:502253Kuala Lumpur
KL201715Cerita rakyatMonolog2:563643Kuala Lumpur
KL201716Musang dan gagak (dengan gambar)Monolog1:311794Negeri Sembilan
KL201717Musang dan gagak (tanpa gambar)Monolog0:561504Negeri Sembilan
KL201718Musang dan gagak (sebagai watak)Monolog1:462094Negeri Sembilan
KL201719Cerita gembiraMonolog0:451174Negeri Sembilan
KL201720Cerita sedihMonolog1:272594Negeri Sembilan
KL201721Cerita rakyatMonolog1:522674Negeri Sembilan
KL201722Musang dan gagak (dengan gambar)Monolog1:371675Negeri Sembilan
KL201723Musang dan gagak (tanpa gambar)Monolog1:081205Negeri Sembilan
KL201724Musang dan gagak (sebagai watak)Monolog1:401815Negeri Sembilan
KL201725Cerita gembiraMonolog0:43935Negeri Sembilan
KL201726Cerita sedihMonolog1:031485Negeri Sembilan
KL201727Cerita rakyatMonolog1:442205Negeri Sembilan
KL201728Musang dan gagak (dengan gambar)Monolog1:031326Sabah
KL201729Musang dan gagak (tanpa gambar)Monolog0:451006Sabah
KL201730Musang dan gagak (sebagai watak)Monolog1:552396Sabah
KL201731Cerita gembiraMonolog0:38676Sabah
KL201732Cerita sedihMonolog1:091536Sabah
KL201733Cerita rakyat (Huminodun)Monolog1:291836Sabah
Jumlah49:226,161

Notasi

  1. /// = hentian sejenak
  2. < > = ujaran serentak
  3. ### = tidak jelas
  4. PN = nama peribadi

Subkorpus "NorHashimah"

Nama fail

  • XXX.txt teks asal tanpa anotasi
  • XXX-prodrop.jsonl anotasi ganti nama kosong dalam format jsonl
  • XXX-prodrop.txt anotasi ganti nama kosong dalam format yang dibataskan tab
  • XXX-prodrop_inserted.txt teks asal dengan tag anotasi disisipkan
  • XXX-prosub.jsonl anotatsi pengganti ganti nama dalam format jsonl
  • XXX-prosub.txt anotatsi pengganti ganti nama dalam format yang dibataskan tab

Fail anotasi dalam format yang dibataskan tab (XXX-prodrop.txt dan XXX-prosub.txt) boleh disuap kepada ETA: Easy Text Annotator bersama dengan fail teks asal (XXX.txt) untuk memvisualisasikan anotasi dalam pelayar. Dengan menggunakan ETA, anda juga mengubah anotasi dan menjana jadual ringkasan anotasi yang boleh dibukan dengan MS Excel dan sebagainya.

Tag anotasi

Ganti nama kosong

Anotasi diberi token selepas kedudukan ganti nama kosong (zero pronoun).

  • 1st orang pertama
  • 2nd orang kedua
  • 3rd orang ketiga
  • S subjek
  • DO objek langsung
  • IO objek tak langsung
  • P pemilik

Lihat Nomoto dkk. (2025) untuk maklumat lanjut.

Pengganti ganti nama

Anotasi diberi pada ungkapan-ungkapan yang merujuk kepada penutur dan pendengar, baik ganti nama (pronoun) mahupun pengganti ganti nama (pronoun substitute), serta ungkapan panggilan (address term).

  • 1st kata ganti nama dan pengganti ganti nama yang orang pertama
  • 2nd orang kedua
  • address ungkapan panggilan

Lihat Nomoto dkk. (2023) untuk maklumat lanjut.