Bernardus Ari Kuncoro

Pendidik Data Science dan Musisi....

Selengkapnya
Navigasi Web
Tiga Hal Menarik terkait Text Mining
Tiga Hal Menarik terkait Text Mining - Desain Grafis Pribadi lewat Canva

Tiga Hal Menarik terkait Text Mining

Tantangan Menulis Hari ke-98

Oleh: Bernardus Ari Kuncoro

Malam semakin larut. Jam dinding menunjukkan pukul sembilan. Istriku masih membimbing mahasiswa kedokteran via Zoom. Sementara anakku terlihat masih bermain-main dengan keranjangnya yang dia umpamakan sebagai tempat hadiah. Maklum saja, lingkaran keluarga terdekatku banyak yang berulang tahun bulan ini, yaitu istri dan keponakanku. Anakku menyusul pada Desember. Sehingga dia terinspirasi untuk membuat kado lalu memberikannya kepada mamanya dan diminta pura-pura terkejut. Sedikit demi sedikit mulai terasa aura holiday. Meskipun selama tujuh bulan terakhir work from home. Membuat aura rumah seperti kantor.

Eiiits, belum liburan, ya! Tepat sebelum ini aku ikut Zoominar. TalksON yang digagas IYKRA sejak Juli 2020 ini mengangkat topik terkait Text Mining. Siap-siap otak sedikit pening. Atau, paling tidak, dahi mengernyit.

Well, obrolan berisi terkait penambangan data berbasis kata-kata itu memantik banyak diskusi. Bukan hanya pembawa materinya, Mas Bhara Yudhiantara dari Home Credit Indonesia, yang mampu membawakan materi ini dengan tenang, woles, dan asyik, para peserta juga dibikin penasaran dengan isu yang terkait dengan data unstructured alias acakadut ini. Terbukti dengan munculnya beragam pertanyaan yang menarik. Memang, merapikan data teks butuh PR. Meskipun demikian, pantang pesimis ya, anak manis! Pekerjaan rumah Anda akan terbayar, jika tujuan tercapai.

Duh, aku jadi teringat saat membuat Thesis pada 2016. Dalam perjalananku membuat Thesis, aku bikin paper terkait Text Mining dari data Instagram dan iseng memasukkannya ke dalam konferensi internasional. Kelihatan mentereng banget, ya kata 'internasional'? Padahal ya tetep, aku pilih lokasinya di Indonesia, Kota Kembang tercinta. Tempatku menyematkan status mahasiswa untuk pertama kalinya. Maklum lah, kala itu istriku sedang hamil. Mau pergi keluar negeri sedikit gundah dan ngeri.

Cukup ya, terjebak nostalgianya! Mari kita move on dan membahas TalksON.

Berdasarkan hasil pengamatan dan pendengaranku, ada tiga intisari menarik.

Pertama, mengidentifikasi bahasa dalam data teks adalah hal yang terutama dan pertama. Ada pertanyaan menarik terungkap. Adakah package yang ampuh berasal dari kumpulan teks bahasa Indonesia untuk text mining ini? Dijawab ada, namun hal itu masih jadi resep rahasia, terutama yang bisa menganalisis bahasa Indonesia yang tidak baku. Berbayar. Salah satu trik nya adalah dengan menerjemahkan teks Bahasa Indonesia ke Bahasa Inggris terlebih dahulu agar bisa lanjut ke analisis.

Kedua, istilah-istilah yang terungkap pada diskusi terkesan asing bagi orang awam, tetapi tetap asyik didengar. Sebut saja tokenization, bag of words, sentence breaking, part of speech (PoS) tagging, TF-IDF, corpus dll. Keren banget, kan? Saking awesome-nya jadi bingung dan mesti cari kamus. Dalam diskusi ini diungkapkan di awal-awal dengar kata-kata yang sederhana, sehingga membuatku yang sudah lama tidak ngoprek lagi mampu mengorek masa lalu.

Ketiga, sebagai seorang blogger dan penulis buku pemula, sampai saat ini aku sudah menyelesaikan tantangan sebanyak 97 tulisan. Tiga hari lagi akan ada 100 tulisan. Setahun lagi akan mendekati 500. Seru juga kalau seluruh tulisanku dikategorisasikan, dianalisis dan disentuh sedikit dengan ilustrasi yang nyeni. Lalu dikirim naskahnya ke penerbit indie. Hayo, siapa yang mau PO? Wait! Buku pertamaku dulu deh, ya. Agar cetakan kedua di bulan November ini cepat terjual habis seperti cetakan pertama. Pssst silakan copas bit.ly/BUKULDDS ya di browser kesayangan untuk mlipir. Jangan sampai kehabisan lagi!

Jam sembilan tiga puluh malam. Cepat sekali waktu berlalu. Anakku belum makan! Istriku juga baru selesai menasihati mahasiswa dan belum dinner. Alhasil akulah yang bertugas menyuapi Kiran setelah tadi sempat santap malam.

Selamat makan!

Kalideres, 6 November 2020

DISCLAIMER
Konten pada website ini merupakan konten yang di tulis oleh user. Tanggung jawab isi adalah sepenuhnya oleh user/penulis. Pihak pengelola web tidak memiliki tanggung jawab apapun atas hal hal yang dapat ditimbulkan dari penerbitan artikel di website ini, namun setiap orang bisa mengirimkan surat aduan yang akan ditindak lanjuti oleh pengelola sebaik mungkin. Pengelola website berhak untuk membatalkan penayangan artikel, penghapusan artikel hingga penonaktifan akun penulis bila terdapat konten yang tidak seharusnya ditayangkan di web ini.

Laporkan Penyalahgunaan

Komentar

Kereeen ulasannya, Pak. Salam literasi

06 Nov
Balas

Wah, keren banget, Pak. Salam kenal.

06 Nov
Balas



search

New Post