Pengertian Korpus dalam Penelitian Bahasa, Berikut Sumber Korpus yang Perlu Diketahui

Posted on

Dalam kajian linguistik kita sering mendengar istilah korpus (corpus). Akan tetapi seringkali masih ada kesulitan untuk membedakan antara korpus dengan teks. 

Dalam penelitian bahasa unit analisis berupa kata, frasa, clausa, dan kalimat. Lalu dimana korpus berada?

Korpus dalam bahasa Inggris corpus artinya kumpulan teks. Menurut Baker (2010:93) korpus merupakan kumpulan teks baik tulisan lisan maupun lisan yang tersimpan dalam komputer. 

Baker mendefinisikan korpus terdapat pada media elektronik saja. Menurut Setiawan (2017) korpus merupakan kumpulan tulisan yang ditulis oleh seseorang baik berupa hard copy dan soft copy. 
Korpus dalam bentuk hard copy dapat dicontohkan seperti buku, majalah, kamus, dan koran. Contoh soft copy dapat berupa aplikasi, website, kamus online, dan lain sebagainya.

Dari pengertian tersebut dapat disimpulkan bahwa korpus merupakan kumpulan teks baik lisan maupun tulis yang ada di media cetak maupun elektronik dan dapat dijadikan sumber data. 

Dalam hal ini, semua jenis unit linguistik (kata, frasa, clausa, kalimat, dan wacana) sudah pasti menjadi bagian dari korpus selama terkumpul menjadi satu kesatuan bentuk.
Akan tetapi belum jika tidak menjadi kesatuan (kumpulan) maka tidak dapat dikatakan menjadi korpus. Oleh karena itu, data yang disebut korpus juga identik dengan sejumlah data yang besar atau memiliki kuantitas yang mencukupi. 
Oleh karena itu korpus juga disebut sebagai korpora (bank bahasa).

Selanjutnya, korpus dapat dikatakan bahwa suatu sumber data yang sudah ada. Sumber data yang berisi unit linguistik yang sudah siap untuk diteliti. 

Misalkan saja kamus, kamus sudah dibuat oleh pengarang atau penulis, seorang peneliti cukup menggunakan kamus tersebut sebagai sumber data.

Pada sudut pandang lain, korpus juga dapat dibangun, yakni seorang dapat mengumpulkan korpus baik bersumber dari lisan maupun tulis. Sumber lisan berupa rekaman, wawancara, dan diskusi.

Sumber tertulis berupa buku, novel, koran, majalah, web, blog, jurnal, dan lain sebagainya. Setelah teks dikumpulkan, selanjutnya menjadi satu kumpulan data yang disebut korpus. 

Hal ini akan menjadi kopus apabila satuan bahasanya dapat menjadi database.

Referensi

  • Baker, P. (2010). Corpus Methods in Linguistics. In Litosseliti, Lia. 2010. Research Methods in Linguistics. New York: Continnum International Publishing Group.
  • Setiawan, T. (2017). Linguistik Korpus dalam Pengajaran Bahasa. Makalah, disajikan dalam seminar nasional Perspektif Baru Penelitian Linguistik Terapan, tanggal 6 Juni 2017 di Program Pascasarjana, Universitas Negeri Yogyakarta.

    2 comments

    Leave a Reply

    Your email address will not be published. Required fields are marked *