Skip to content

Repository kode pemrograman R dan data untuk analisis dalam penelitian dengan judul MODEL KAJIAN TERJEMAHAN BERBASIS BANK DATA TERJEMAHAN DIGITAL INGGRIS-INDONESIA DAN IMPLIKASI PEDAGOGISNYA

License

Notifications You must be signed in to change notification settings

gederajeg/rob-steal-parallel-corpora

Repository files navigation

Repositori data dan kode pemrograman untuk Penelitian Unggulan Program Studi (PUPS) dengan judul MODEL KAJIAN TERJEMAHAN BERBASIS BANK DATA TERJEMAHAN DIGITAL INGGRIS-INDONESIA DAN IMPLIKASI PEDAGOGISNYA

Gede Primahadi Wijaya Rajeg ORCID iD icon(Ketua Tim Peneliti), I Made Rajeg ORCID iD icon(Anggota), I Gede Semara Dharma Putra (Anggota Mahasiswa), Putu Dea Indah Kartini (Anggota Mahasiswa)

Universitas Udayana, Bali, Indonesia

Creative Commons License
Semua berkas di dalam repositori ini berlisensi Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.

Kunjungi laman utama penelitian ini.

Jika berkas-berkas dalam repositori ini (Rajeg et al. 2021b) digunakan untuk tujuan penelitian dan pengajaran, harap menyitir/mengutip repositori ini sebagai berikut:

Rajeg, Gede Primahadi Wijaya, I Made Rajeg, Putu Dea Indah Kartini & I Gede Semara Dharma Putra. 2021. Material pendukung untuk MODEL KAJIAN TERJEMAHAN BERBASIS BANK DATA TERJEMAHAN DIGITAL INGGRIS-INDONESIA DAN IMPLIKASI PEDAGOGISNYA. Open Science Framework. https://doi.org/10.17605/OSF.IO/Y6ESA. https://osf.io/y6esa/.

Luaran utama dari penelitian ini, yaitu artikel jurnal, saat ini sedang dalam proses peninjauan sejawat (peer review), dan repositori pendukung artikel tersebut dapat diakses melalui tautan berikut (Rajeg 2021b).

Material

  • Direktori SENASTEK berisi berkas pendukung untuk makalah yang disajikan pada Seminar Nasional Sains, Teknologi dan Humaniora 2021 (SENASTEK 2021). Berkas-berkas tersebut berupa data mentah, kode pemrograman R untuk analisis kuantitatif dan visualisasi, salindia/slides dan abstrak presentasi (Rajeg et al. 2021a), dan dua grafik statistik yang digunakan dalam presentasi.

  • Direktori LITERATES berisi berkas pendukung untuk makalah pada LINGUISTICS, LITERATURE, CULTURE AND ARTS INTERNATIONAL SEMINAR (LITERATES) yang diselenggarakan pada tanggal 22 Januari 2022 oleh Fakultas Bahasa Asing (FBA), Universitas Mahasaraswati Denpasar.

  • Berkas gpwr2021-code-for-pre-processing-the-osub-tmx-file.R mengandung kode pemrograman untuk pengolahan awal korpus paralel Inggris-Indonesia OpenSubtitles2018 (Lison & Tiedemann 2016) berformat .tmx. Pengolahan ini adalah untuk memisahkan kalimat bahasa Inggris dan padanan bahasa Indonesianya menjadi dua berkas teks biasa (.txt) terpisah, yang kemudian bisa menjadi input untuk konkordansi paralel (lihat info selanjutnya).

  • Berkas bernama ROB_sample_conc_main.tsv dan STEAL_sample_conc_main.tsv adalah data utama penelitian ini. Berkas ini berupa sampel konkordansi lema ROB dan STEAL beserta terjemahan bahasa Indonesianya yang telah dianotasi berdasarkan variabel-variabel kualitatif (leksikal, morfosintaksis, semantik, dan konstruksional) sesuai dengan tujuan dan rumusan masalah penelitian.

  • Program untuk menghasilkan konkordansi paralel menggunakan R dikemas dalam fungsi para_conc() yang diterbitkan bersama dengan modul pemrograman R bernama paracorp (Rajeg 2021a). Perhatikan salah satu contoh penggunaan para_conc() berikut. Info lengkap cara memasang dan mengutip modul paracorp dalam publikasi dapat dilihat pada laman paracorp.

# load the paracorp R package
# more info at https://gederajeg.github.io/paracorp/
library(paracorp)  

# in this example, the English text is used as the source text
my_para_conc <- para_conc(source_text = sci_en,
                          target_text = sci_id,
                          pattern = "\\bshould\\b", # regular expression pattern
                          conc_sample = 20) # retrieve 20 random concordance lines
#> The output concordance file (called: 'parallel_conc.txt') will be saved in this directory: '/Volumes/GoogleDrive/Other computers/My MacBook Pro/Documents/research/2020-11-03-PARALLEL-CORPUS-PUPS'
#> The output concordance will ALSO be returned as a tibble data frame in the R console.
#> Detecting the match/pattern...
#> You choose to generate a 20 random-sample of the concordance lines.
#> Creating a 20 random-sample of the concordance lines...
#> Generating the concordance for the match/pattern...
#> Saving the output concordance file (called: 'parallel_conc.txt') in '/Volumes/GoogleDrive/Other computers/My MacBook Pro/Documents/research/2020-11-03-PARALLEL-CORPUS-PUPS'.

# peek into the results as tibble/data frame
head(my_para_conc)
#> # A tibble: 6 × 4
#>   LEFT                      NODE   RIGHT            TRANSLATION                 
#>   <chr>                     <chr>  <chr>            <chr>                       
#> 1 When designating these p… should always be borne… "Ketika menentukan filum ya…
#> 2 The minor improvements i… should be as readily p… "Perubahan kecil dari gener…
#> 3 The impression of disgus… should be changed       "Kesan menjijikan dan simbo…
#> 4 It is an expression of t… should be equipped wit… "Ini merupakan bukti kesemp…
#> 5 The fund for research an… should be increased ev… "Dana untuk penelitian dan …
#> 6 Recently a chemist propo… should be named guacam… "Seorang kimiawan baru-baru…

Sesi ruang kerja R

devtools::session_info()
#> ─ Session info ───────────────────────────────────────────────────────────────
#>  setting  value
#>  version  R version 4.1.2 (2021-11-01)
#>  os       macOS Big Sur 10.16
#>  system   x86_64, darwin17.0
#>  ui       X11
#>  language (EN)
#>  collate  en_US.UTF-8
#>  ctype    en_US.UTF-8
#>  tz       Asia/Makassar
#>  date     2022-01-30
#>  pandoc   2.14.0.3 @ /Applications/RStudio.app/Contents/MacOS/pandoc/ (via rmarkdown)
#> 
#> ─ Packages ───────────────────────────────────────────────────────────────────
#>  package     * version date (UTC) lib source
#>  assertthat    0.2.1   2019-03-21 [1] CRAN (R 4.1.0)
#>  bit           4.0.4   2020-08-04 [1] CRAN (R 4.1.0)
#>  bit64         4.0.5   2020-08-30 [1] CRAN (R 4.1.0)
#>  cachem        1.0.6   2021-08-19 [1] CRAN (R 4.1.0)
#>  callr         3.7.0   2021-04-20 [1] CRAN (R 4.1.0)
#>  cli           3.1.0   2021-10-27 [1] CRAN (R 4.1.0)
#>  crayon        1.4.2   2021-10-29 [1] CRAN (R 4.1.0)
#>  DBI           1.1.2   2021-12-20 [1] CRAN (R 4.1.0)
#>  desc          1.4.0   2021-09-28 [1] CRAN (R 4.1.0)
#>  devtools      2.4.3   2021-11-30 [1] CRAN (R 4.1.0)
#>  digest        0.6.29  2021-12-01 [1] CRAN (R 4.1.0)
#>  dplyr         1.0.7   2021-06-18 [1] CRAN (R 4.1.0)
#>  ellipsis      0.3.2   2021-04-29 [1] CRAN (R 4.1.0)
#>  evaluate      0.14    2019-05-28 [1] CRAN (R 4.1.0)
#>  fansi         1.0.2   2022-01-14 [1] CRAN (R 4.1.2)
#>  fastmap       1.1.0   2021-01-25 [1] CRAN (R 4.1.0)
#>  fs            1.5.2   2021-12-08 [1] CRAN (R 4.1.0)
#>  generics      0.1.1   2021-10-25 [1] CRAN (R 4.1.0)
#>  glue          1.6.0   2021-12-17 [1] CRAN (R 4.1.0)
#>  hms           1.1.1   2021-09-26 [1] CRAN (R 4.1.0)
#>  htmltools     0.5.2   2021-08-25 [1] CRAN (R 4.1.0)
#>  knitr         1.37    2021-12-16 [1] CRAN (R 4.1.0)
#>  lifecycle     1.0.1   2021-09-24 [1] CRAN (R 4.1.0)
#>  magrittr      2.0.1   2020-11-17 [1] CRAN (R 4.1.0)
#>  memoise       2.0.1   2021-11-26 [1] CRAN (R 4.1.0)
#>  paracorp    * 0.0.1   2021-12-30 [1] Github (gederajeg/paracorp@c2cd065)
#>  pillar        1.6.4   2021-10-18 [1] CRAN (R 4.1.0)
#>  pkgbuild      1.3.1   2021-12-20 [1] CRAN (R 4.1.0)
#>  pkgconfig     2.0.3   2019-09-22 [1] CRAN (R 4.1.0)
#>  pkgload       1.2.4   2021-11-30 [1] CRAN (R 4.1.0)
#>  prettyunits   1.1.1   2020-01-24 [1] CRAN (R 4.1.0)
#>  processx      3.5.2   2021-04-30 [1] CRAN (R 4.1.0)
#>  ps            1.6.0   2021-02-28 [1] CRAN (R 4.1.0)
#>  purrr         0.3.4   2020-04-17 [1] CRAN (R 4.1.0)
#>  R6            2.5.1   2021-08-19 [1] CRAN (R 4.1.0)
#>  readr         2.1.1   2021-11-30 [1] CRAN (R 4.1.0)
#>  remotes       2.4.2   2021-11-30 [1] CRAN (R 4.1.0)
#>  rlang         0.4.12  2021-10-18 [1] CRAN (R 4.1.0)
#>  rmarkdown     2.11    2021-09-14 [1] CRAN (R 4.1.0)
#>  rprojroot     2.0.2   2020-11-15 [1] CRAN (R 4.1.0)
#>  rstudioapi    0.13    2020-11-12 [1] CRAN (R 4.1.0)
#>  sessioninfo   1.2.2   2021-12-06 [1] CRAN (R 4.1.0)
#>  stringi       1.7.6   2021-11-29 [1] CRAN (R 4.1.0)
#>  stringr       1.4.0   2019-02-10 [1] CRAN (R 4.1.0)
#>  testthat      3.1.1   2021-12-03 [1] CRAN (R 4.1.0)
#>  tibble        3.1.6   2021-11-07 [1] CRAN (R 4.1.0)
#>  tidyselect    1.1.1   2021-04-30 [1] CRAN (R 4.1.0)
#>  tzdb          0.2.0   2021-10-27 [1] CRAN (R 4.1.0)
#>  usethis       2.1.5   2021-12-09 [1] CRAN (R 4.1.0)
#>  utf8          1.2.2   2021-07-24 [1] CRAN (R 4.1.0)
#>  vctrs         0.3.8   2021-04-29 [1] CRAN (R 4.1.0)
#>  vroom         1.5.7   2021-11-30 [1] CRAN (R 4.1.0)
#>  withr         2.4.3   2021-11-30 [1] CRAN (R 4.1.0)
#>  xfun          0.29    2021-12-14 [1] CRAN (R 4.1.0)
#>  yaml          2.2.1   2020-02-01 [1] CRAN (R 4.1.0)
#> 
#>  [1] /Users/Primahadi/Rlibs
#>  [2] /Library/Frameworks/R.framework/Versions/4.1/Resources/library
#> 
#> ──────────────────────────────────────────────────────────────────────────────

Referensi

Lison, Pierre & Jörg Tiedemann. 2016. Opensubtitles2016: Extracting large parallel corpora from movie and tv subtitles. Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC’16), 923–929. Portorož, Slovenia: European Language Resources Association (ELRA).

Rajeg, Gede Primahadi Wijaya. 2021a. Paracorp: A concordancer for parallel, bilingual corpora. GitHub; Open Science Framework (OSF). doi:10.17605/OSF.IO/HV9CU. https://github.com/gederajeg/paracorp.

Rajeg, Gede Primahadi Wijaya. 2021b. Constructional equivalence in the Indonesian translations of ROB and STEAL. doi:10.17605/OSF.IO/PZC8Y. https://github.com/gederajeg/constructional-equivalence.

Rajeg, Gede Primahadi Wijaya, I Made Rajeg, Putu Dea Indah Kartini & I Gede Semara Dharma Putra. 2021a. Pemanfaatan Bank-data Digital Dwibahasa dalam Kajian Terjemahan: Studi kasus padanan bahasa Indonesia untuk verba sinonim bahasa Inggris ROB & STEAL. Paper. doi:10.6084/m9.figshare.17078369. https://github.com/gederajeg/rob-steal-parallel-corpora.

Rajeg, Gede Primahadi Wijaya, I Made Rajeg, Putu Dea Indah Kartini & I Gede Semara Dharma Putra. 2021b. Material pendukung untuk MODEL KAJIAN TERJEMAHAN BERBASIS BANK DATA TERJEMAHAN DIGITAL INGGRIS-INDONESIA DAN IMPLIKASI PEDAGOGISNYA. Open Science Framework. doi:10.17605/OSF.IO/Y6ESA. https://osf.io/y6esa/.