Bagaimana untuk

Pasang Apache Hadoop / HBase di Ubuntu 20.04

Pasang Apache Hadoop / HBase di Ubuntu 20.04

Tutorial ini akan cuba menerangkan langkah-langkah untuk memasang Hadoop dan HBase di Ubuntu 20.04 (Focal Fossa) pelayan Linux?. HBase adalah pangkalan data bukan hubungan yang diedarkan sumber terbuka yang ditulis di Java dan berjalan di atas Sistem Fail Hadoop (HDFS). HBase membolehkan anda menjalankan kelompok besar yang menganjurkan jadual yang sangat besar dengan berbilion baris dan berjuta-juta lajur di atas perkakasan komoditi.

Panduan pemasangan ini tidak ditujukan untuk persediaan pengeluaran yang sangat tersedia, tetapi sesuai untuk persediaan Makmal untuk membolehkan anda melakukan pengembangan. Pemasangan HBase kami akan dilakukan pada Single Node Hadoop Cluster. Pelayannya adalah Ubuntu 20.04 mesin maya dengan spesifikasi di bawah:

Sekiranya sumber anda tidak sepadan dengan persediaan Makmal ini, anda boleh bekerja dengan apa yang anda ada dan melihat apakah perkhidmatan dapat dimulakan.

Untuk CentOS 7, rujuk Cara Memasang Apache Hadoop / HBase di CentOS 7

Pasang Hadoop pada Ubuntu 20.04

Bahagian pertama akan merangkumi pemasangan kluster Hadoop nod tunggal di Ubuntu 20.04 Pelayan LTS. Pemasangan Ubuntu 20.04 pelayan berada di luar skop panduan ini. Rujuk dokumentasi persekitaran virtualisasi anda untuk bagaimana.

Langkah 1: Kemas kini Sistem

Kemas kini dan tingkatkan secara opsional semua pakej yang dipasang pada sistem Ubuntu anda:

sudo apt update sudo apt -y upgrade sudo reboot

Langkah 2: Pasang Java di Ubuntu 20.04

Pasang Java jika tiada di Ubuntu 20 anda.Sistem 04.

sudo apt update sudo apt install default-jdk default-jre

Setelah berjaya memasang Java di Ubuntu 20.04, sahkan versi dengan baris arahan java.

$ java -versi versi openjdk "11.0.7 "2020-04-14 OpenJDK Runtime Environment (bina 11.0.7 + 10-pasca-Ubuntu-3ubuntu1) OpenJDK 64-Bit Server VM (bina 11.0.7 + 10-pasca-Ubuntu-3ubuntu1, mod campuran, perkongsian)

Tetapkan JAVA_HOME pemboleh ubah.

kucing <

Kemas kini $ PATH dan tetapan anda.

sumber / dll / profil.d / hadoop_java.sh

Kemudian uji:

$ gema $ JAVA_HOME / usr / lib / jvm / java-11-openjdk-amd64

Ruj:

Cara menetapkan versi Java lalai di Ubuntu / Debian

Langkah 3: Buat Akaun Pengguna untuk Hadoop

Mari buat pengguna berasingan untuk Hadoop supaya kita mempunyai pengasingan antara sistem fail Hadoop dan sistem fail Unix.

sudo adduser hadoop sudo usermod -aG sudo hadoop sudo usermod -aG sudo hadoop

Setelah pengguna ditambahkan, buat pasangan kunci SS untuk pengguna.

$ sudo su - hadoop
$ ssh-keygen -t rsa
Menjana pasangan kunci rsa awam / swasta.
Masukkan fail untuk menyimpan kunci (/ home / hadoop /.ssh / id_rsa):
Direktori yang dibuat '/ home / hadoop /.ssh '.
Masukkan frasa laluan (kosong tanpa frasa laluan):
Masukkan frasa laluan yang sama sekali lagi:
Pengenalan anda telah disimpan di / home / hadoop /.ssh / id_rsa.
Kunci awam anda telah disimpan di / home / hadoop /.ssh / id_rsa.pub.
Cap jari utama adalah:
SHA256: mA1b0nzdKcwv / LPktvlA5R9LyNe9UWt + z1z0AjzySt4 [dilindungi e-mel]
Imej rawak kunci adalah:
+---[RSA 2048]----+
| |
| o +… |
| o + . = o o |
| O . o.o.o = |
| + S . * ooB = |
| o * =.B |
|… * + = |
| o o o.O + |
| o E.= o = |
+----[SHA256]-----+

Tambahkan kunci pengguna ini ke senarai kunci ssh yang Diberi Kuasa.

kucing ~ /.ssh / id_rsa.pub >> ~ /.ssh / authority_keys chmod 0600 ~ /.ssh / kunci_kesahan

Sahkan bahawa anda boleh menggunakan kunci tambah.

$ ssh localhost Keaslian hosthost 'localhost (127.0.0.1) 'tidak dapat ditubuhkan. Cap jari kunci ECDSA ialah SHA256: 42Mx + I3isUOWTzFsuA0ikhNN + cJhxUYzttlZ879y + QI. Adakah anda pasti mahu terus menyambung (ya / tidak / [cap jari])? ya Amaran: Menambah 'localhost' (ECDSA) secara kekal ke senarai hos yang diketahui. Selamat datang ke Ubuntu 20.04 LTS (GNU / Linux 5.4.0-28-generik x86_64) * Dokumentasi: https: // bantuan.ubuntu.com * Pengurusan: https: // landskap.kanonik.com * Sokongan: https: // ubuntu.com / kelebihan Program yang disertakan dengan sistem Ubuntu adalah perisian percuma; syarat pengedaran yang tepat untuk setiap program dijelaskan dalam fail individu di / usr / share / doc / * / copyright. Ubuntu hadir dengan JAMINAN TIDAK ADA, sejauh yang dibenarkan oleh undang-undang yang berlaku. $ keluar

Langkah 4: Muat turun dan Pasang Hadoop

Periksa versi Hadoop yang paling baru sebelum memuat turun versi yang dinyatakan di sini. Pada penulisan ini, ini adalah versi 3.2.1.

Simpan versi terkini ke pemboleh ubah.

SIARAN = "3.2.1 "

Kemudian muat turun arkib Hadoop ke sistem tempatan anda.

wget https: // www-eu.apache.org / dist / hadoop / common / hadoop- $ RELEASE / hadoop- $ SIARAN.tar.gz

Ekstrak fail.

tar -xzvf hadoop- $ SIARAN.tar.gz

Pindahkan direktori yang dihasilkan ke / usr / tempatan / hadoop.

sudo mv hadoop- $ RELEASE / / usr / local / hadoop sudo mkdir / usr / local / hadoop / log sudo chown -R hadoop: hadoop / usr / local / hadoop

Tetapkan HADOOP_HOME dan tambahkan direktori dengan binari Hadoop ke anda $ PATH.

kucing <

Fail sumber.

sumber / dll / profil.d / hadoop_java.sh

Sahkan versi Hadoop anda.

$ hadoop versi Hadoop 3.2.1 repositori kod sumber https: // gitbox.apache.org / repos / asf / hadoop.git -r b3cbbb467e22ea829b3808f4b7b01d07e0bf3842 Disusun oleh rohithsharmaks pada 2019-09-10T15: 56Z Disusun dengan protok 2.5.0 Dari sumber dengan checksum 776eaf9eee9c0ffc370bcbc1888737 Perintah ini dijalankan menggunakan / usr / local / hadoop / share / hadoop / common / hadoop-common-3.2.1.balang

Langkah 5: Konfigurasikan Hadoop

Semua konfigurasi Hadoop anda terletak di bawah / usr / tempatan / hadoop / etc / hadoop / direktori.

Sejumlah fail konfigurasi perlu diubahsuai untuk menyelesaikan pemasangan Hadoop di Ubuntu 20.04.

Suntingan pertama JAVA_HOME dalam skrip shell hadoop-env.sh:

$ sudo vim / usr / local / hadoop / etc / hadoop / hadoop-env.sh # Tetapkan JAVA_HOME - Baris 54 eksport JAVA_HOME =/ usr / lib / jvm / java-11-openjdk-amd64 /

Kemudian konfigurasikan:

1. laman web teras.xml

The laman web teras.xml fail mengandungi maklumat kluster Hadoop yang digunakan semasa memulakan. Hartanah ini merangkumi:

Buka laman web teras.xml

sudo vim / usr / local / hadoop / etc / hadoop / core-site.xml

Tambahkan sifat berikut di antara dan tanda nama.

  fs.lalai.nama hdfs: // localhost: 9000 URI sistem fail lalai   

Lihat tangkapan skrin di bawah.

2. laman web hdfs.xml

Fail ini perlu dikonfigurasi untuk setiap host untuk digunakan dalam kluster. Fail ini menyimpan maklumat seperti:

Dalam persediaan ini, saya ingin menyimpan infrastruktur Hadoop dalam cakera sekunder - / dev / sdb.

$ lsblk NAMA MAJ: MIN RM SAIZ RO JENIS MOUNTPOINT sda 8: 0 0 76.3G 0 cakera └─sda1 8: 1 0 76.3G 0 bahagian / sdb 8:16 0 100G 0 cakera sr0 11: 0 1 1024M 0 rom 

Saya akan membahagi dan memasang cakera ini ke / hadoop direktori.

sudo parted -s - / dev / sdb mklabel gpt sudo parted -s -a optimal - / dev / sdb mkpart primer 0% 100% sudo berpisah -s - / dev / sdb align-check optimal 1 sudo mkfs.xfs / dev / sdb1 sudo mkdir / hadoop echo "/ dev / sdb1 / hadoop xfs lalai 0 0" | sudo tee -a / etc / fstab sudo mount -a 

Sahkan:

$ df -hT | grep / dev / sdb1 / dev / sdb1 xfs 50G 84M 100G 1% / hadoop

Buat direktori untuk nama nama dan datanod.

sudo mkdir -p / hadoop / hdfs / namenode, datanode

Tetapkan pemilikan kepada pengguna dan kumpulan hadoop.

sudo chown -R hadoop: hadoop / hadoop

Sekarang buka fail:

sudo vim / usr / local / hadoop / etc / hadoop / hdfs-laman web.xml

Kemudian tambahkan sifat berikut di antara dan tanda nama.

  dfs.replikasi 1   dfs.nama.dir fail: /// hadoop / hdfs / namenode   dfs.data.dir fail: /// hadoop / hdfs / datanode  

Lihat tangkapan skrin di bawah.

3. laman web peta.xml

Di sinilah anda menetapkan kerangka MapReduce untuk digunakan.

sudo vim / usr / local / hadoop / etc / hadoop / mapred-site.xml

Tetapkan seperti di bawah.

  pengurangan peta.kerangka.nama benang  

4. tapak benang.xml

Tetapan dalam fail ini akan menimpa konfigurasi benang Hadoop. Ia mentakrifkan pengurusan sumber dan logik penjadualan pekerjaan.

sudo vim / usr / local / hadoop / etc / hadoop / benang-laman web.xml

Tambah:

  benang.pengangguk.perkhidmatan aux mapreduce_shuffle  

Inilah tangkapan skrin konfigurasi saya.

Langkah 6: Sahkan Konfigurasi Hadoop

Memulakan kedai Hadoop Infrastruktur.

sudo su - hadoop hdfs namenode -format

Lihat output di bawah:

Uji konfigurasi HDFS.

$ permulaan-dfs.sh Memulakan nama nama pada [localhost] Memulakan datanod Memulakan nama nama sekunder [hbase] hbase: Amaran: Menambah 'hbase' (ECDSA) secara kekal ke senarai hos yang diketahui.

Terakhir mengesahkan konfigurasi YARN:

$ benang permulaan.sh
Memulakan sumber pekerja
Mula mengangguk

Hadoop 3.x merosakkan port UI Web:

Anda boleh memeriksa port yang digunakan oleh hadoop menggunakan:

$ ss -tunelp

Contoh output ditunjukkan di bawah.

Akses Papan Pemuka Web Hadoop http: // ServerIP: 9870.

Lihat Gambaran Keseluruhan Hadoop Cluster di http: // ServerIP: 8088.

Uji untuk melihat apakah anda boleh membuat direktori.

$ hadoop fs -mkdir / ujian $ hadoop fs -ls / Menjumpai 1 item drwxr-xr-x - hadoop supergroup 0 2020-05-29 15:41 / test

Menghentikan Perkhidmatan Hadoop

Gunakan arahan:

$ berhenti-dfs.sh $ benang berhenti.sh

Pasang HBase di Ubuntu 20.04

Anda boleh memilih untuk memasang HBase dalam Mod Berdiri atau Mod Tersebar Pseudo. Proses penyediaannya serupa dengan pemasangan Hadoop kami.

Langkah 1: Muat turun dan Pasang HBase

Periksa versi terbaru atau versi pelepasan Stabil sebelum anda memuat turun. Untuk kegunaan produksi, saya cadangkan anda pergi dengan keluaran Stable.

VER = "2.2.4 "wget ​​http: // apache.cermin.gtcomm.net / hbase / stable / hbase- $ VER-bin.tar.gz

Ekstrak arkib Hbase dimuat turun.

tar xvf hbase- $ VER-tong.tar.gz sudo mv hbase- $ VER / / usr / local / HBase /

Kemas kini nilai $ PATH anda.

kucing <

Kemas kini nilai persekitaran shell anda.

$ sumber / dll / profil.d / hadoop_java.sh
$ gema $ HBASE_HOME
/ usr / tempatan / HBase

Edit JAVA_HOME dalam skrip shell hbase-env.sh:

$ sudo vim / usr / local / HBase / conf / hbase-env.sh # Tetapkan JAVA_HOME - Eksport baris 27 JAVA_HOME = / usr / lib / jvm / java-11-openjdk-amd64 /

Langkah 2: Konfigurasikan HBase

Kami akan melakukan konfigurasi seperti yang kami lakukan untuk Hadoop. Semua fail konfigurasi untuk HBase terletak di / usr / tempatan / HBase / conf / direktori.

laman web hbase.xml

Tetapkan direktori data ke lokasi yang sesuai pada fail ini.

Pilihan 1: Pasang HBase dalam Mod Berdiri (Tidak digalakkan)

Dalam mod mandiri semua daemon (HMaster, HRegionServer, dan ZooKeeper) berjalan dalam satu proses / contoh jvm

Buat direktori root HBase.

sudo mkdir -p / hadoop / HBase / HFiles sudo mkdir -p / hadoop / zookeeper sudo chown -R hadoop: hadoop / hadoop /

Buka fail untuk diedit.

sudo vim / usr / local / HBase / conf / hbase-laman web.xml

Sekarang tambahkan konfigurasi berikut antara dan tag seperti di bawah.

  hbase.rootdir fail: / hadoop / HBase / HFiles   hbase.penjaga zoo.harta benda.dataDir / hadoop / penjaga zook  

Secara lalai, melainkan jika anda mengkonfigurasi hbase.rootdir harta benda, data anda masih disimpan di / tmp /.

Sekarang mulakan HBase dengan menggunakan permulaan-hbase.sh skrip dalam direktori HBase bin.

$ sudo su - hadoop
$ permulaan-hbase.sh
menjalankan master, log masuk ke / usr / local / HBase / logs / hbase-hadoop-master-hbase.keluar

Pilihan 2: Pasang HBase dalam Pseudo-Distributed Mode (Disyorkan)

Nilai kami untuk hbase.rootdir ditetapkan lebih awal akan bermula dalam Mod Berdiri. Mod diedarkan semu bermaksud bahawa HBase masih berjalan sepenuhnya pada satu hos, tetapi setiap daemon HBase (HMaster, HRegionServer, dan ZooKeeper) berjalan sebagai proses yang berasingan.

Untuk memasang HBase dalam Pseudo-Distributed Mode, tetapkan nilainya ke:

  hbase.rootdir hdfs: // localhost: 8030 / hbase   hbase.penjaga zoo.harta benda.dataDir / hadoop / penjaga zook   hbase.gugusan.diedarkan benar  

Dalam persediaan ini, Data akan menyimpan data anda dalam HDFS.

Pastikan direktori Zookeeper dibuat.

sudo mkdir -p / hadoop / zookeeper sudo chown -R hadoop: hadoop / hadoop /

Sekarang mulakan HBase dengan menggunakan permulaan-hbase.sh skrip dalam direktori HBase bin.

$ sudo su - hadoop $ permulaan-hbase.sh  localhost: menjalankan zookeeper, log masuk ke / usr / local / HBase / bin /… / log / hbase-hadoop-zookeeper-hbase.kehabisan master, log masuk ke / usr / local / HBase / logs / hbase-hadoop-master-hbase.keluar: menjalankan regionerver, log to / usr / local / HBase / logs / hbase-hadoop-περιοχήςerver-hbase.keluar

Periksa Direktori HBase dalam HDFS:

$ hadoop fs -ls / hbase
Menjumpai 9 item
drwxr-xr-x - hadoop supergroup 0 2019-04-07 09:19 / hbase /.tmp
drwxr-xr-x - hadoop supergroup 0 2019-04-07 09:19 / hbase / MasterProcWALs
drwxr-xr-x - hadoop supergroup 0 2019-04-07 09:19 / hbase / WAL
drwxr-xr-x - hadoop supergroup 0 2019-04-07 09:17 / hbase / korup
drwxr-xr-x - hadoop supergroup 0 2019-04-07 09:16 / hbase / data
drwxr-xr-x - hadoop supergroup 0 2019-04-07 09:16 / hbase / hbase
-rw-r - r-- 1 hadoop supergroup 42 2019-04-07 09:16 / hbase / hbase.ID
-rw-r - r-- 1 hadoop supergroup 7 2019-04-07 09:16 / hbase / hbase.versi
drwxr-xr-x - hadoop supergroup 0 2019-04-07 09:17 / hbase / lamaWAL

Langkah 3: Menguruskan HMaster & HRegionServer

Pelayan HMaster mengawal kluster HBase. Anda boleh memulakan sehingga 9 pelayan HMaster sandaran, yang menjadikan 10 HMasters total, dikira sebagai yang utama.

HRegionServer menguruskan data di StoreFiles seperti yang diarahkan oleh HMaster. Secara amnya, satu HRegionServer berjalan setiap nod dalam kluster. Menjalankan beberapa HRegionServers pada sistem yang sama boleh berguna untuk ujian dalam mod diedarkan semu.

Master dan Region Servers boleh dimulakan dan dihentikan menggunakan skrip sandaran-master tempatan.sh dan pelayan daerah.sh masing-masing.

$ tempatan-master-sandaran.sh start 2 # Mula backup HMaster
$ pelayan daerah.sh start 3 # Mula berbilang Pelayan Region

Perintah berikut memulakan 3 pelayan sandaran menggunakan port 16002/16012, 16003/16013, dan 16005/16015.

$ tempatan-master-sandaran.sh mula 2 3 5

Perintah berikut memulakan empat tambahan RegionServers, berjalan pada port berurutan mulai dari 16022/16032 (port asas 16020/16030 plus 2).

$ pelayan daerah.sh mula 2 3 4 5

Untuk berhenti, ganti mulakan parameter dengan berhenti untuk setiap arahan diikuti dengan offset pelayan untuk berhenti. Contohnya.

$ pelayan daerah.h berhenti 5

Memulakan HBase Shell

Hadoop dan Hbase harus dijalankan sebelum anda dapat menggunakan shell HBase. Berikut adalah susunan perkhidmatan permulaan yang betul.

$ permulaan-semua.sh $ permulaan-hbase.sh

Kemudian gunakan shell HBase.

[dilindungi e-mel]: ~ $ cangkang hbase
2019-04-07 10: 44: 43,821 PERINGATAN [utama] penggunaan.NativeCodeLoader: Tidak dapat memuatkan perpustakaan asli-hadoop untuk platform anda… menggunakan kelas built-java jika berkenaan
SLF4J: Laluan kelas mengandungi beberapa ikatan SLF4J.
SLF4J: Ditemukan mengikat dalam [jar: file: / usr / local / HBase / lib / slf4j-log4j12-1.7.10.balang!/ org / slf4j / impl / StaticLoggerBinder.kelas]
SLF4J: Diikat dalam [jar: file: / usr / local / hadoop / share / hadoop / common / lib / slf4j-log4j12-1.7.25.balang!/ org / slf4j / impl / StaticLoggerBinder.kelas]
SLF4J: Lihat http: // www.slf4j.org / kod.html # multiple_bindings untuk penjelasan.
SLF4J: Pengikatan sebenarnya adalah jenis [org.slf4j.tersirat.Log4jLoggerFactory]
Shell HBase
Gunakan "help" untuk mendapatkan senarai arahan yang disokong.
Gunakan "exit" untuk keluar dari shell interaktif ini.
Versi 1.4.9, rd625b212e46d01cb17db9ac2e9e927fdb201afa1, Rab 5 Dis 11:54:10 PST 2018
hbase (utama): 001: 0>

Menghentikan HBase.

hentian-hbase.sh

Anda berjaya memasang Hadoop dan HBase di Ubuntu 20.04.

Buku untuk Dibaca:

Hadoop: Panduan Definitif: Penyimpanan dan Analisis pada Skala Internet

$59.99
$ 34.68  dalam stok24 baru dari $ 28.96
65 digunakan dari $ 6.13
Penghantaran percuma
BELI SEKARANGAmazon.comsetakat 9 Mei 2021 10:37 pagi

Hadoop Menjelaskan

 dalam stokBELI SEKARANGAmazon.comsetakat 9 Mei 2021 10:37 pagi

ciri-ciri

Tarikh Siaran2014-06-16T00: 00: 00.000Z
BahasaBahasa Inggeris
Bilangan muka surat156
Tarikh penerbitan2014-06-16T00: 00: 00.000Z
FormatEbook Kindle

Senibina Aplikasi Hadoop

$49.99
$ 40.28  dalam stok14 baru dari $ 27.80
37 digunakan dari $ 2.76
Penghantaran percuma
BELI SEKARANGAmazon.comsetakat 9 Mei 2021 10:37 pagi

HBase: Panduan Definitif: Akses Rawak ke Data Ukuran Planet Anda

$39.99
$ 28.01  dalam stok16 baru dari $ 13.99
37 digunakan dari $ 2.32
Penghantaran percuma
BELI SEKARANGAmazon.comsetakat 9 Mei 2021 10:37 pagi

ciri-ciri

Nombor Bahagian978-1-4493-9610-7
Adalah Produk Dewasa
Edisi1
BahasaBahasa Inggeris
Bilangan muka surat556
Tarikh penerbitan2011-09-23T00: 00: 01Z

Big Data: Prinsip dan amalan terbaik sistem data masa nyata yang boleh diskalakan

$49.99
$ 37.76  dalam stok13 baru dari $ 35.00
45 digunakan dari $ 2.32
Penghantaran percuma
BELI SEKARANGAmazon.comsetakat 9 Mei 2021 10:37 pagi

ciri-ciri

Nombor Bahagian43171-600463
Adalah Produk Dewasa
Tarikh Siaran2015-05-10T00: 00: 01Z
Edisi1hb
BahasaBahasa Inggeris
Bilangan muka surat328
Tarikh penerbitan2015-05-10T00: 00: 01Z

Merancang Aplikasi Intensif Data: Idea Besar Di Sebalik Sistem yang Boleh Dipercayai, Boleh Skal, dan Terpelihara

$59.99
$ 35.00  dalam stok30 baru dari $ 31.00
27 digunakan dari $ 32.00
Penghantaran percuma
BELI SEKARANGAmazon.comsetakat 9 Mei 2021 10:37 pagi

ciri-ciri

Nombor Bahagian41641073
Edisi1
BahasaBahasa Inggeris
Bilangan muka surat616
Tarikh penerbitan2017-04-11T00: 00: 01Z

Rujukan:

  • Dokumentasi Apache Hadoop
  • Buku Apache HBase
Apakah Suspensi Selektif USB dan Cara Mengaktifkan atau Melumpuhkannya
Pertama, mari kita cuba memahami apa itu Ciri Penangguhan Selektif dalam USB. Kita semua tahu bahawa, apabila sistem tidak aktif atau tidak berfungsi ...
Cara mengalihkan folder lalai sistem (seperti Desktop atau Muat Turun) ke pemacu lain di Windows 10
Pada Windows 10, terdapat beberapa folder yang dibuat oleh sistem secara lalai. Folder ini (Contohnya. Desktop, Dokumen, Muat turun dll. ) berada di C...
Bagaimana mengetahui versi directX yang dipasang di Windows 10
DirectX adalah sekumpulan antara muka pengaturcaraan aplikasi (API) yang menangani tugas multimedia terutamanya permainan di Microsoft windows 10. Dir...

Laman web yang dikhaskan untuk alat, sistem operasi dan teknologi moden. Banyak artikel menarik dan petua berguna