Repositori data dan kode pemrograman untuk Penelitian Unggulan Program Studi (PUPS) dengan judul MODEL KAJIAN TERJEMAHAN BERBASIS BANK DATA TERJEMAHAN DIGITAL INGGRIS-INDONESIA DAN IMPLIKASI PEDAGOGISNYA
Gede Primahadi Wijaya Rajeg (Ketua Tim Peneliti), I Made Rajeg (Anggota), I Gede Semara Dharma Putra (Anggota Mahasiswa), Putu Dea Indah Kartini (Anggota Mahasiswa)
Universitas Udayana, Bali, Indonesia
Semua
berkas di dalam repositori ini berlisensi
Creative
Commons Attribution-NonCommercial-ShareAlike 4.0 International
License.
Kunjungi laman utama penelitian ini.
Jika berkas-berkas dalam repositori ini (Rajeg et al. 2021b) digunakan untuk tujuan penelitian dan pengajaran, harap menyitir/mengutip repositori ini sebagai berikut:
Rajeg, Gede Primahadi Wijaya, I Made Rajeg, Putu Dea Indah Kartini & I Gede Semara Dharma Putra. 2021. Material pendukung untuk MODEL KAJIAN TERJEMAHAN BERBASIS BANK DATA TERJEMAHAN DIGITAL INGGRIS-INDONESIA DAN IMPLIKASI PEDAGOGISNYA. Open Science Framework. https://doi.org/10.17605/OSF.IO/Y6ESA. https://osf.io/y6esa/.
Luaran utama dari penelitian ini, yaitu artikel jurnal, saat ini sedang dalam proses peninjauan sejawat (peer review), dan repositori pendukung artikel tersebut dapat diakses melalui tautan berikut (Rajeg 2021b).
-
Direktori SENASTEK berisi berkas pendukung untuk makalah yang disajikan pada Seminar Nasional Sains, Teknologi dan Humaniora 2021 (SENASTEK 2021). Berkas-berkas tersebut berupa data mentah, kode pemrograman R untuk analisis kuantitatif dan visualisasi, salindia/slides dan abstrak presentasi (Rajeg et al. 2021a), dan dua grafik statistik yang digunakan dalam presentasi.
-
Direktori LITERATES berisi berkas pendukung untuk makalah pada LINGUISTICS, LITERATURE, CULTURE AND ARTS INTERNATIONAL SEMINAR (LITERATES) yang diselenggarakan pada tanggal 22 Januari 2022 oleh Fakultas Bahasa Asing (FBA), Universitas Mahasaraswati Denpasar.
-
Berkas
gpwr2021-code-for-pre-processing-the-osub-tmx-file.R
mengandung kode pemrograman untuk pengolahan awal korpus paralel Inggris-Indonesia OpenSubtitles2018 (Lison & Tiedemann 2016) berformat.tmx
. Pengolahan ini adalah untuk memisahkan kalimat bahasa Inggris dan padanan bahasa Indonesianya menjadi dua berkas teks biasa (.txt
) terpisah, yang kemudian bisa menjadi input untuk konkordansi paralel (lihat info selanjutnya). -
Berkas bernama
ROB_sample_conc_main.tsv
danSTEAL_sample_conc_main.tsv
adalah data utama penelitian ini. Berkas ini berupa sampel konkordansi lema ROB dan STEAL beserta terjemahan bahasa Indonesianya yang telah dianotasi berdasarkan variabel-variabel kualitatif (leksikal, morfosintaksis, semantik, dan konstruksional) sesuai dengan tujuan dan rumusan masalah penelitian. -
Program untuk menghasilkan konkordansi paralel menggunakan R dikemas dalam fungsi
para_conc()
yang diterbitkan bersama dengan modul pemrograman R bernama paracorp (Rajeg 2021a). Perhatikan salah satu contoh penggunaanpara_conc()
berikut. Info lengkap cara memasang dan mengutip modul paracorp dalam publikasi dapat dilihat pada laman paracorp.
# load the paracorp R package
# more info at https://gederajeg.github.io/paracorp/
library(paracorp)
# in this example, the English text is used as the source text
my_para_conc <- para_conc(source_text = sci_en,
target_text = sci_id,
pattern = "\\bshould\\b", # regular expression pattern
conc_sample = 20) # retrieve 20 random concordance lines
#> The output concordance file (called: 'parallel_conc.txt') will be saved in this directory: '/Volumes/GoogleDrive/Other computers/My MacBook Pro/Documents/research/2020-11-03-PARALLEL-CORPUS-PUPS'
#> The output concordance will ALSO be returned as a tibble data frame in the R console.
#> Detecting the match/pattern...
#> You choose to generate a 20 random-sample of the concordance lines.
#> Creating a 20 random-sample of the concordance lines...
#> Generating the concordance for the match/pattern...
#> Saving the output concordance file (called: 'parallel_conc.txt') in '/Volumes/GoogleDrive/Other computers/My MacBook Pro/Documents/research/2020-11-03-PARALLEL-CORPUS-PUPS'.
# peek into the results as tibble/data frame
head(my_para_conc)
#> # A tibble: 6 × 4
#> LEFT NODE RIGHT TRANSLATION
#> <chr> <chr> <chr> <chr>
#> 1 When designating these p… should always be borne… "Ketika menentukan filum ya…
#> 2 The minor improvements i… should be as readily p… "Perubahan kecil dari gener…
#> 3 The impression of disgus… should be changed "Kesan menjijikan dan simbo…
#> 4 It is an expression of t… should be equipped wit… "Ini merupakan bukti kesemp…
#> 5 The fund for research an… should be increased ev… "Dana untuk penelitian dan …
#> 6 Recently a chemist propo… should be named guacam… "Seorang kimiawan baru-baru…
devtools::session_info()
#> ─ Session info ───────────────────────────────────────────────────────────────
#> setting value
#> version R version 4.1.2 (2021-11-01)
#> os macOS Big Sur 10.16
#> system x86_64, darwin17.0
#> ui X11
#> language (EN)
#> collate en_US.UTF-8
#> ctype en_US.UTF-8
#> tz Asia/Makassar
#> date 2022-01-30
#> pandoc 2.14.0.3 @ /Applications/RStudio.app/Contents/MacOS/pandoc/ (via rmarkdown)
#>
#> ─ Packages ───────────────────────────────────────────────────────────────────
#> package * version date (UTC) lib source
#> assertthat 0.2.1 2019-03-21 [1] CRAN (R 4.1.0)
#> bit 4.0.4 2020-08-04 [1] CRAN (R 4.1.0)
#> bit64 4.0.5 2020-08-30 [1] CRAN (R 4.1.0)
#> cachem 1.0.6 2021-08-19 [1] CRAN (R 4.1.0)
#> callr 3.7.0 2021-04-20 [1] CRAN (R 4.1.0)
#> cli 3.1.0 2021-10-27 [1] CRAN (R 4.1.0)
#> crayon 1.4.2 2021-10-29 [1] CRAN (R 4.1.0)
#> DBI 1.1.2 2021-12-20 [1] CRAN (R 4.1.0)
#> desc 1.4.0 2021-09-28 [1] CRAN (R 4.1.0)
#> devtools 2.4.3 2021-11-30 [1] CRAN (R 4.1.0)
#> digest 0.6.29 2021-12-01 [1] CRAN (R 4.1.0)
#> dplyr 1.0.7 2021-06-18 [1] CRAN (R 4.1.0)
#> ellipsis 0.3.2 2021-04-29 [1] CRAN (R 4.1.0)
#> evaluate 0.14 2019-05-28 [1] CRAN (R 4.1.0)
#> fansi 1.0.2 2022-01-14 [1] CRAN (R 4.1.2)
#> fastmap 1.1.0 2021-01-25 [1] CRAN (R 4.1.0)
#> fs 1.5.2 2021-12-08 [1] CRAN (R 4.1.0)
#> generics 0.1.1 2021-10-25 [1] CRAN (R 4.1.0)
#> glue 1.6.0 2021-12-17 [1] CRAN (R 4.1.0)
#> hms 1.1.1 2021-09-26 [1] CRAN (R 4.1.0)
#> htmltools 0.5.2 2021-08-25 [1] CRAN (R 4.1.0)
#> knitr 1.37 2021-12-16 [1] CRAN (R 4.1.0)
#> lifecycle 1.0.1 2021-09-24 [1] CRAN (R 4.1.0)
#> magrittr 2.0.1 2020-11-17 [1] CRAN (R 4.1.0)
#> memoise 2.0.1 2021-11-26 [1] CRAN (R 4.1.0)
#> paracorp * 0.0.1 2021-12-30 [1] Github (gederajeg/paracorp@c2cd065)
#> pillar 1.6.4 2021-10-18 [1] CRAN (R 4.1.0)
#> pkgbuild 1.3.1 2021-12-20 [1] CRAN (R 4.1.0)
#> pkgconfig 2.0.3 2019-09-22 [1] CRAN (R 4.1.0)
#> pkgload 1.2.4 2021-11-30 [1] CRAN (R 4.1.0)
#> prettyunits 1.1.1 2020-01-24 [1] CRAN (R 4.1.0)
#> processx 3.5.2 2021-04-30 [1] CRAN (R 4.1.0)
#> ps 1.6.0 2021-02-28 [1] CRAN (R 4.1.0)
#> purrr 0.3.4 2020-04-17 [1] CRAN (R 4.1.0)
#> R6 2.5.1 2021-08-19 [1] CRAN (R 4.1.0)
#> readr 2.1.1 2021-11-30 [1] CRAN (R 4.1.0)
#> remotes 2.4.2 2021-11-30 [1] CRAN (R 4.1.0)
#> rlang 0.4.12 2021-10-18 [1] CRAN (R 4.1.0)
#> rmarkdown 2.11 2021-09-14 [1] CRAN (R 4.1.0)
#> rprojroot 2.0.2 2020-11-15 [1] CRAN (R 4.1.0)
#> rstudioapi 0.13 2020-11-12 [1] CRAN (R 4.1.0)
#> sessioninfo 1.2.2 2021-12-06 [1] CRAN (R 4.1.0)
#> stringi 1.7.6 2021-11-29 [1] CRAN (R 4.1.0)
#> stringr 1.4.0 2019-02-10 [1] CRAN (R 4.1.0)
#> testthat 3.1.1 2021-12-03 [1] CRAN (R 4.1.0)
#> tibble 3.1.6 2021-11-07 [1] CRAN (R 4.1.0)
#> tidyselect 1.1.1 2021-04-30 [1] CRAN (R 4.1.0)
#> tzdb 0.2.0 2021-10-27 [1] CRAN (R 4.1.0)
#> usethis 2.1.5 2021-12-09 [1] CRAN (R 4.1.0)
#> utf8 1.2.2 2021-07-24 [1] CRAN (R 4.1.0)
#> vctrs 0.3.8 2021-04-29 [1] CRAN (R 4.1.0)
#> vroom 1.5.7 2021-11-30 [1] CRAN (R 4.1.0)
#> withr 2.4.3 2021-11-30 [1] CRAN (R 4.1.0)
#> xfun 0.29 2021-12-14 [1] CRAN (R 4.1.0)
#> yaml 2.2.1 2020-02-01 [1] CRAN (R 4.1.0)
#>
#> [1] /Users/Primahadi/Rlibs
#> [2] /Library/Frameworks/R.framework/Versions/4.1/Resources/library
#>
#> ──────────────────────────────────────────────────────────────────────────────
Lison, Pierre & Jörg Tiedemann. 2016. Opensubtitles2016: Extracting large parallel corpora from movie and tv subtitles. Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC’16), 923–929. Portorož, Slovenia: European Language Resources Association (ELRA).
Rajeg, Gede Primahadi Wijaya. 2021a. Paracorp: A concordancer for parallel, bilingual corpora. GitHub; Open Science Framework (OSF). doi:10.17605/OSF.IO/HV9CU. https://github.com/gederajeg/paracorp.
Rajeg, Gede Primahadi Wijaya. 2021b. Constructional equivalence in the Indonesian translations of ROB and STEAL. doi:10.17605/OSF.IO/PZC8Y. https://github.com/gederajeg/constructional-equivalence.
Rajeg, Gede Primahadi Wijaya, I Made Rajeg, Putu Dea Indah Kartini & I Gede Semara Dharma Putra. 2021a. Pemanfaatan Bank-data Digital Dwibahasa dalam Kajian Terjemahan: Studi kasus padanan bahasa Indonesia untuk verba sinonim bahasa Inggris ROB & STEAL. Paper. doi:10.6084/m9.figshare.17078369. https://github.com/gederajeg/rob-steal-parallel-corpora.
Rajeg, Gede Primahadi Wijaya, I Made Rajeg, Putu Dea Indah Kartini & I Gede Semara Dharma Putra. 2021b. Material pendukung untuk MODEL KAJIAN TERJEMAHAN BERBASIS BANK DATA TERJEMAHAN DIGITAL INGGRIS-INDONESIA DAN IMPLIKASI PEDAGOGISNYA. Open Science Framework. doi:10.17605/OSF.IO/Y6ESA. https://osf.io/y6esa/.