Oxford English Corpus - Oxford English Corpus

The Oxford English Corpus a matn korpusi 21-asrning Ingliz tili, ishlab chiqaruvchilari tomonidan ishlatilgan Oksford ingliz lug'ati va tomonidan Oksford universiteti matbuoti tillarni o'rganish dasturi. Bu o'z tarkibidagi eng katta korpus bo'lib, deyarli 2,1 ni tashkil qiladi milliard so'zlar.[1]U Buyuk Britaniya, AQSh, Irlandiya, Avstraliya, Yangi Zelandiya, Karib dengizi, Kanada, Hindiston, Singapur va Janubiy Afrikadan kelgan tillarni o'z ichiga oladi.[2] Matn asosan olingan veb-sahifalar; ba'zi bir bosma matnlar, masalan, akademik jurnallar, muayyan fan yo'nalishlarini to'ldirish uchun to'plangan.[2] Manbalar "adabiy romanlardan va maxsus jurnallardan, kundalik gazeta va jurnallardan tortib, har xil turdagi yozuvlardir Xansard bloglar, elektron pochta va ijtimoiy tarmoqlar tiliga ".[2] Bu shunga o'xshash ma'lumotlar bazalari bilan farq qilishi mumkin, ular faqat ma'lum bir yozuv turlarini to'plashadi. Korpus odatda faqat Oksford universiteti matbuotining tadqiqotchilari uchun mavjuddir, ammo kuchli ehtiyojni ko'rsata oladigan boshqa tadqiqotchilar kirish uchun murojaat qilishlari mumkin.[2][3]

Oksford English Corpus-ning raqamli versiyasi formatlangan XML va odatda bilan tahlil qilinadi Sketch Dvigatel dasturiy ta'minot.[4] 2006 yil 27 aprelgacha lug'at ma'lumotlar bazasida 1 mlrd so'z bor edi.[5]

OE Corpus-dagi har bir hujjat bilan birga keladi metadata nomlash:

  • sarlavha
  • muallif (agar ma'lum bo'lsa; ko'plab veb-saytlar buni ishonchli aniqlashni qiyinlashtiradi)
  • muallifning jinsi (agar ma'lum bo'lsa)
  • til turi (masalan, ingliz inglizchasi, amerika inglizchasi)
  • manba veb-sayti
  • yil (+ sana, agar ma'lum bo'lsa)
  • yig'ilgan sana
  • domen + subdomain
  • hujjat statistikasi (nishonlar, jumlalar va boshqalar soni)[4]

Shuningdek qarang

Adabiyotlar

  1. ^ "Oksford ingliz korpusi". Sketch Dvigatel. Leksik hisoblash CZ s.r.o. Olingan 27 oktyabr 2016.
  2. ^ a b v d "Oksford ingliz korpusi". Onlayn Oksford lug'atlari. Oksford universiteti matbuoti. Olingan 8 noyabr 2014.
  3. ^ "COCA-ni taqqoslash". Zamonaviy Amerika ingliz tilining korpusi. Arxivlandi asl nusxasi 2014 yil 7-noyabrda. Olingan 8 noyabr 2014.
  4. ^ a b Oksford ingliz korpusi. 2014 yil 4-fevralda olingan.
  5. ^ "Lug'at ma'lumotlar bazasida milliard so'z bor". Northwest Herald. 2006 yil 27 aprel. 2018-04-02 121 2. Olingan 15 mart 2020 - Newspapers.com sayti orqali.